あけましておめでとうございます。
本年もよろしくお願いします。
Facebookを見ていると、友達の多くは、雪の中の正月写真をアップしていました。
東京は快晴、いい天気。空気は冷たく澄んでいる。
シンガポールの友達は、屋外で、シャツ一枚にビール片手の写真をアップしてました。
後ろでは、マリーナベイサンズの屋上から出ているレーザー光線がきれい!
さて2015年の一発目は、ウェブで見つけた便利ツールです。
QUAST という、アセンブリの結果を表示してくれるツールです。
アセンブルそのものをするわけではありません。
アセンブル結果を、FASTAファイルを入れるだけで、見やすくまとめてくれる、そんなツールです。
使い方として、例えば、
いろんなアセンブラーを試して作ったContigを持っている場合
またはパラメータを変えていろいろアセンブリを試した場合
それらContigの統計値をリストしたいとき。
ここではウェブ版の結果を紹介しますが、ダウンロードしてローカルで動かすこともできるそうです。
マニュアルも充実しています。
デモデータもここからダウンロードできるので、早速試してみました。
データはE.coliのK-12 substr. MG1655だそうです。
残念ながらPacBioのデータではない(Illuminaデータのアセンブリ)ので、私たちが持っているPacBioデータのアセンブリ(パラメータをちょっと変えたもの2つ)を加えてアップロードしてみました。
インポートファイルは、FASTAで、アセンブリごとに分かれている必要があります。
Add Filesからファイルを指定します
リファレンスが既にわかっていれば、そのファイルとアノテーションファイルを取り込むことで、遺伝子レベルでの配列チェックも可。まあ、どんな結果が出てくるか。
とりあえず、デモデータのリファレンス配列と、アノテーションGFFファイルをダウンロードして、
Another genomeを選んでアップロード。
そしてEvaluateボタンを押!
もちろん、デノボシークエンスの場合は、ゲノムなんて選ばないでそのまま押!
結果はこちら
このようにテーブルでアセンブル結果が表示されます。
使われている用語の定義は、そこにカーソルを当てると、説明がでてきます。
ABySSとかCLCとか書いてあるのは、デモデータ(イルミナデータのアセンブリ)結果です。
私が加えたPacBioは、1セルで読んでHGAP2でアセンブリした結果です。
Extended reportというところをクリックすると、もっとたくさんの集計結果が表示されます。
テーブルのすぐ下には、グラフィカルな表示が
こちらはContigの累積プロット
Y軸が累積塩基数
X軸がContig数
点線は、Referenceをアップロードしたときだけ、表示されます。これがReference配列のサイズ。
ちなみに上図の左上に描いた赤矢印は、PacBioのデータです!
Contig数は2つ(1つはミスアセンブリ)で、Referenceをカバーしていますね。
GC含量を見てみましょう
・・・まあ、こんな感じ。
E.Coliなので
と、いうツールですが、ショートリードやPacBioとのハイブリッドでアセンブリした場合の、結果をザッと見てみたい場合に使えるのではないでしょうか?
ドライの方以外でも、例えば、誰かにパラメータ変えてアセンブリしてもらった結果を評価したいな、という場合使えるでしょうね。
そういえばサイズに制限はあるのでしょうか?
特にそのような記述は見当たらなかったですが。見落としているかな?
0 件のコメント:
コメントを投稿