Dovetailの話を数回にわたって続けましたが、ゲノムアセンブリを評価するとき、私もついN50 の値を比較してしまいます。
PacBioを使ってコンティグN50が数メガbpに達した!とか、
Dovetailを使ってスキャフォルドN50が何倍になった!とか。
でもこれは長さを評価する指標にはなりますが、アセンブリが正確にできているか、Completenessを評価するには別の指標が必要です。
アセンブリした結果の配列に、コアな遺伝子(代表遺伝子)がどれだけ含まれているか、そういった解析をする必要があるわけです。
ゲノムアセンブリの論文を読んだことのある方は、BUSCOとかCEGMAとかいう解析で、「Completeが何%、Fragmentedが何%、だからこのアセンブリはまずまず良い」なんていう文章を読んだことがあるかもしれません。
特に真核生物で、新しくゲノムを決めた、みたいな論文では必ずと言っていいほど。
このような解析を、GUIで簡単に解析できるツールが gVolante(ジーボランチ)です。
神戸理化学研究所の工樂さん、西村さん、原さんらの論文も、先日Publishされたそうです こちら
コンティグ/スキャフォルドN50の値が長ければ、それだけ連続配列が良く読まれている、と想像できます。ゲノム中にリピートが多くてかなりフラグメント化されていても、遺伝子の配列部分はそれなりに読まれているのではないか?
自分のアセンブリ結果は、どれだけの遺伝子を含んでいるのか?
そんなことを手軽にチェックできるのが、このウェブベースの簡易ツール「gVolante」
BUSCO、CEGMAの遺伝子セットのほかに、彼らが独自にまとめたCVG: Core Vertebrate Genesというのも脊椎動物評価用に使用できるようです。
使い方はとても簡単で、ゲノムアセンブリの結果FASTAファイルを、ウェブからアップロードして、「Upload File」ボタンを押す
数分待ってアップロードが終わったら、解析メニューを選びます
(私はデモサンプルにNCBIに登録されていたナメクジウオのゲノムアセンブリを選んだのですが、間違えてNon-vertebrate を選んでしまった! あれって原始的な脊索動物らしいですね。もうちょっとわかりやすい例を選べば良かった。。。 とはいえ、どんな風に動いて結果が出てくるのか、はわかりますよね?)
解析によって完了する時間は異なります。
私の場合、ナメクジウオゲノムアセンブリのCEGMA解析で、1日くらいで結果が出ました。
リンクをクリックすると・・・
素晴らしい。きれい!
結果はしばらくするとサーバーから削除されるそうなので、ダウンロードすることができます。
データは暗号化されてアップロードしたあと、すぐに削除されるらしいので安全です。
トライアルするならちゃんとサンプルを選びましょう、という教訓を得ましたが、自分でアセンブリしているデータがあるなら是非お勧めします!
お金かからないし、論文も出ていますので引用もできますし、何より簡単。
今のドラフトアセンブリのチェックと、これからスキャフォルドするかどうか迷っているひとにお勧め!
0 件のコメント:
コメントを投稿