ところで皆さんはどの競技が好きですか? 水泳?マラソン?陸上?
私はやっぱり陸上ですね。
ボルトの100mもすごかったですが、見入ってしまうのは普段あまり目にしない、ハンマー投げとか、円盤投げとか、3000m障害とかですよ。
投げ系は単純に飛距離を競うところがわかりやすいし、投げた後の雄たけびで、こっちも力が入る。
障害はもはや、何でもありでしょう。飛んだり跳ねたり、水辺に入ったり、誰がこんなルール作ったのか。
最初はみんな一緒にスタートするのに、途中で離されたり、転んだり、抜き返したり、ドラマがありますね。
さて、ドラマがあるといえば「ハイブリッドアセンブリ」
使うツールとデータ量のサジ加減で結果がずいぶん違ってくる=ドラマがある
ハイブリッドアセンブリとは、異なる技術のシークエンサーデータを組み合わせてアセンブルすることです。
7年前くらいは、ハイブリッドといえば、数十bpのイルミナリードと、数百bpの454リードを合わせてアセンブルする、ということを良く聞きました、が、
PacBioの登場で、ハイブリッドアセンブリは大きく2つの意味に分かれました
- PacBioロングリードを、イルミナショートリードでエラー補正してからアセンブリする(2012年ごろ登場したPacBioToCA, ECToolsでは主にこの意味)
- イルミナショートリードで作ったContigを、PacBioロングリードでScaffoldする(2013年ごろのPBJellyの登場からはこの意味も加わる)
厳密には、2はアセンブリというよりScaffoldingですが、これもハイブリッドアセンブリと呼ばれることが多いです。
ちなみに研究者のひとと話をするとき、どちらの意味でハイブリッドと呼んでいるのか、最初に確認するようにします。でないと、話がすれ違いになってしまう!
ちなみに研究者のひとと話をするとき、どちらの意味でハイブリッドと呼んでいるのか、最初に確認するようにします。でないと、話がすれ違いになってしまう!
では、最近多い、2の意味でハイブリッドアセンブルするとして、どのデータをどれくらい用意して、どのツールでアセンブルしたら良いのでしょうね?
で、ちょうど良い論文があります!
Chakraborty et al., (2016) Contiguous and accurate de novo assembly of metazoan genomes with modest long read coverage. Nucl. Acids Res.
この論文は、PacBioリードのアセンブリ戦略をこれから検討するかたに、いくつかヒントを与えてくれます。
彼らはショウジョウバエのゲノムをサンプルにして、PacBioとイルミナのシークエンスをおのおのどの程度(ゲノムカバレッジ)読んで、どのツールで解析すれば良い結果(ContiguityやCompleteness)を得られるか調べています。
ハイブリッドアセンブリの方は、いろいろ試した結果、DBG2OLCを採用。
Platanusを使って67.4xのイルミナデータ(DPGPプロジェクトデータを拝借)をアセンブリし、そのContigとPacBioロングリード(様々なカバレッジ量)をハイブリッドアセンブリするパイプライン。
比較としてPacBioのみのアセンブリは、PBcRを採用(注:いまはCanuというツールになっています)
ま、詳しくは論文を参照して頂くとして、ネタばれします。(先入観持たずに論文読みたいひとはここから先は読まないで)
---------------------------------------------------------------------------
M&Mの最初に、ショウジョウバエのゲノムを抽出して、サイズセレクションして・・・って書いてあるけど、シークエンスしたデータはこのアセンブル解析には使っていない、ってはっきり書いてある! え?
全ての解析データはpublicly availableのものだって!?
ま、それはみんなが試せるから良いとして、ここはスルー
NG50のグラフ(論文中Fig 5)を見ると、PacBioリード40x、53xまでは、ハイブリッドアセンブリの結果の方がNG50が長い(下のほうの3本はハイブリッド、真ん中の青はPacオンリー、一番上の赤線は両方のマージ)
でもその上、62x、77x、99x、121xのPacBioリードでアセンブリすると、NG50は一気に長くなる!
Chakraborty et al. Fig 5 |
と、言ってもやっぱりハイブリッドは、需要があるわけです。
理由はコストとサンプル量の制限です。
ほぼ無制限に予算があって、ほぼ無制限にDNAが取れれば、Pacだけでアセンブリしたほうが良いに決まってますが、普通そうはいかない。
この論文でも言っていますが、PacBioを30x程度と、イルミナを70x程度用意できれば、そこそこリーズナブルな結果は得られるでしょう。
この論文の例では、Pacデータ30xと、イルミナデータ70xのハイブリッドの結果のNG50は、Pacオンリーの50xアセンブリのときより長かった、そうです。
もちろんゲノムの複雑さによっては、Pacデータは30xでは足りない、なんてこともあるでしょうが、最初のステップとして、30xはお勧めできます(10xは少ないだろうなあ)。
最後に、必要DNAですが、これは結構盲点かもしれませんね。
マイクログラムオーダーのゲノムDNAを用意して、ようやく数個のSMRT Cellを流せるのですから。必要カバレッジのデータ量を得るために、どれくらいのゲノムDNAを抽出する必要があるのか、これを逆算したら結構な量になるかもしれません。
抽出できるDNA量から、カバレッジの限界を計算して、ハイブリッドを選択するケースもあると思います。
0 件のコメント:
コメントを投稿