2015年1月4日日曜日

ゲノムアセンブリの簡単チェックツール - QUAST

あけましておめでとうございます。
本年もよろしくお願いします。

Facebookを見ていると、友達の多くは、雪の中の正月写真をアップしていました。
東京は快晴、いい天気。空気は冷たく澄んでいる。
シンガポールの友達は、屋外で、シャツ一枚にビール片手の写真をアップしてました。
後ろでは、マリーナベイサンズの屋上から出ているレーザー光線がきれい!


さて2015年の一発目は、ウェブで見つけた便利ツールです。

QUAST という、アセンブリの結果を表示してくれるツールです。
アセンブルそのものをするわけではありません。
アセンブル結果を、FASTAファイルを入れるだけで、見やすくまとめてくれる、そんなツールです。

使い方として、例えば、
いろんなアセンブラーを試して作ったContigを持っている場合
またはパラメータを変えていろいろアセンブリを試した場合
それらContigの統計値をリストしたいとき。

ここではウェブ版の結果を紹介しますが、ダウンロードしてローカルで動かすこともできるそうです。
マニュアルも充実しています。

デモデータもここからダウンロードできるので、早速試してみました。
データはE.coliのK-12 substr. MG1655だそうです。
残念ながらPacBioのデータではない(Illuminaデータのアセンブリ)ので、私たちが持っているPacBioデータのアセンブリ(パラメータをちょっと変えたもの2つ)を加えてアップロードしてみました。

インポートファイルは、FASTAで、アセンブリごとに分かれている必要があります。
Add Filesからファイルを指定します
リファレンスが既にわかっていれば、そのファイルとアノテーションファイルを取り込むことで、遺伝子レベルでの配列チェックも可。まあ、どんな結果が出てくるか。
とりあえず、デモデータのリファレンス配列と、アノテーションGFFファイルをダウンロードして、
Another genomeを選んでアップロード。
そしてEvaluateボタンを押!
もちろん、デノボシークエンスの場合は、ゲノムなんて選ばないでそのまま押!

結果はこちら

このようにテーブルでアセンブル結果が表示されます。
使われている用語の定義は、そこにカーソルを当てると、説明がでてきます。

ABySSとかCLCとか書いてあるのは、デモデータ(イルミナデータのアセンブリ)結果です。
私が加えたPacBioは、1セルで読んでHGAP2でアセンブリした結果です。
Extended reportというところをクリックすると、もっとたくさんの集計結果が表示されます。

テーブルのすぐ下には、グラフィカルな表示が


こちらはContigの累積プロット 
Y軸が累積塩基数
X軸がContig数

点線は、Referenceをアップロードしたときだけ、表示されます。これがReference配列のサイズ。
ちなみに上図の左上に描いた赤矢印は、PacBioのデータです!
Contig数は2つ(1つはミスアセンブリ)で、Referenceをカバーしていますね。

GC含量を見てみましょう

・・・まあ、こんな感じ。
E.Coliなので


と、いうツールですが、ショートリードやPacBioとのハイブリッドでアセンブリした場合の、結果をザッと見てみたい場合に使えるのではないでしょうか?

ドライの方以外でも、例えば、誰かにパラメータ変えてアセンブリしてもらった結果を評価したいな、という場合使えるでしょうね。

そういえばサイズに制限はあるのでしょうか?
特にそのような記述は見当たらなかったですが。見落としているかな?







0 件のコメント:

コメントを投稿