2016年8月16日火曜日

ハイブリッドアセンブリ 悩みどころとそのヒント

リオオリンピック、日本選手の活躍が目立っていますね。
ところで皆さんはどの競技が好きですか? 水泳?マラソン?陸上?

私はやっぱり陸上ですね。
ボルトの100mもすごかったですが、見入ってしまうのは普段あまり目にしない、ハンマー投げとか、円盤投げとか、3000m障害とかですよ。
投げ系は単純に飛距離を競うところがわかりやすいし、投げた後の雄たけびで、こっちも力が入る。
障害はもはや、何でもありでしょう。飛んだり跳ねたり、水辺に入ったり、誰がこんなルール作ったのか。
最初はみんな一緒にスタートするのに、途中で離されたり、転んだり、抜き返したり、ドラマがありますね。

さて、ドラマがあるといえば「ハイブリッドアセンブリ」
使うツールとデータ量のサジ加減で結果がずいぶん違ってくる=ドラマがある


ハイブリッドアセンブリとは、異なる技術のシークエンサーデータを組み合わせてアセンブルすることです。
7年前くらいは、ハイブリッドといえば、数十bpのイルミナリードと、数百bpの454リードを合わせてアセンブルする、ということを良く聞きました、が、
PacBioの登場で、ハイブリッドアセンブリは大きく2つの意味に分かれました
  1. PacBioロングリードを、イルミナショートリードでエラー補正してからアセンブリする(2012年ごろ登場したPacBioToCA, ECToolsでは主にこの意味)
  2. イルミナショートリードで作ったContigを、PacBioロングリードでScaffoldする(2013年ごろのPBJellyの登場からはこの意味も加わる)
厳密には、2はアセンブリというよりScaffoldingですが、これもハイブリッドアセンブリと呼ばれることが多いです。
ちなみに研究者のひとと話をするとき、どちらの意味でハイブリッドと呼んでいるのか、最初に確認するようにします。でないと、話がすれ違いになってしまう!

では、最近多い、2の意味でハイブリッドアセンブルするとして、どのデータをどれくらい用意して、どのツールでアセンブルしたら良いのでしょうね?

で、ちょうど良い論文があります!




この論文は、PacBioリードのアセンブリ戦略をこれから検討するかたに、いくつかヒントを与えてくれます。
彼らはショウジョウバエのゲノムをサンプルにして、PacBioとイルミナのシークエンスをおのおのどの程度(ゲノムカバレッジ)読んで、どのツールで解析すれば良い結果(ContiguityやCompleteness)を得られるか調べています。

ハイブリッドアセンブリの方は、いろいろ試した結果、DBG2OLCを採用。
Platanusを使って67.4xのイルミナデータ(DPGPプロジェクトデータを拝借)をアセンブリし、そのContigとPacBioロングリード(様々なカバレッジ量)をハイブリッドアセンブリするパイプライン。

比較としてPacBioのみのアセンブリは、PBcRを採用(注:いまはCanuというツールになっています)

ま、詳しくは論文を参照して頂くとして、ネタばれします。(先入観持たずに論文読みたいひとはここから先は読まないで)

---------------------------------------------------------------------------

M&Mの最初に、ショウジョウバエのゲノムを抽出して、サイズセレクションして・・・って書いてあるけど、シークエンスしたデータはこのアセンブル解析には使っていない、ってはっきり書いてある! え?
全ての解析データはpublicly availableのものだって!?
ま、それはみんなが試せるから良いとして、ここはスルー

NG50のグラフ(論文中Fig 5)を見ると、PacBioリード40x、53xまでは、ハイブリッドアセンブリの結果の方がNG50が長い(下のほうの3本はハイブリッド、真ん中の青はPacオンリー、一番上の赤線は両方のマージ)
でもその上、62x、77x、99x、121xのPacBioリードでアセンブリすると、NG50は一気に長くなる!

Chakraborty et al. Fig 5

だからPacデータを使うなら、Pacオンリーデータでアセンブリしたほうが良い!

と、言ってもやっぱりハイブリッドは、需要があるわけです。
理由はコストとサンプル量の制限です。

ほぼ無制限に予算があって、ほぼ無制限にDNAが取れれば、Pacだけでアセンブリしたほうが良いに決まってますが、普通そうはいかない。
この論文でも言っていますが、PacBioを30x程度と、イルミナを70x程度用意できれば、そこそこリーズナブルな結果は得られるでしょう。
この論文の例では、Pacデータ30xと、イルミナデータ70xのハイブリッドの結果のNG50は、Pacオンリーの50xアセンブリのときより長かった、そうです。
もちろんゲノムの複雑さによっては、Pacデータは30xでは足りない、なんてこともあるでしょうが、最初のステップとして、30xはお勧めできます(10xは少ないだろうなあ)。

最後に、必要DNAですが、これは結構盲点かもしれませんね。
マイクログラムオーダーのゲノムDNAを用意して、ようやく数個のSMRT Cellを流せるのですから。必要カバレッジのデータ量を得るために、どれくらいのゲノムDNAを抽出する必要があるのか、これを逆算したら結構な量になるかもしれません。
抽出できるDNA量から、カバレッジの限界を計算して、ハイブリッドを選択するケースもあると思います。

0 件のコメント:

コメントを投稿