NGSでde novo Assembly といえば 定番中の定番かもしれませんね。
異なるプラットフォームのリードデータを合わせてアセンブることを Hybrid Assembly と言います。
例えばRoche FLXのロングリードと、イルミナGAIIxのショートリードを一緒にするAssembly のことです。
なぜこんなことをするかというと、ロングリードとショートリードにはそれぞれ一長一短があって、合わせることでそれぞれの短所を補いつつ、長所を生かしてより長い、より正確なContig を作れるからです。
先日、The Plant and Animal Genomes Meeting というのがサンディエゴでありました。 実際行ってはいませんが、そこで Cold Spring Harbor Laboratory の Michael Schatz 博士が、PacBioを使ったHybrid Assembly の講演をしましたので紹介します。
プレゼンのスライドは、Schatz博士のサイトにアップされていますので興味のあるかたはどうぞ(ここをクリック!)。
Schatz博士は、PacBio だけで酵母ゲノムを読んだところ、エラーに特徴があることがわかりました。
それは、
ミスマッチエラー(1.4%)よりも挿入(11.5%)や欠損(3.4%)が多いということでした。
全体的なエラーは83.7%で、Pacとしてはまあまあの値です。
ちなみに65個のSMRT Cellを使用して、734,151本のリード(フィルタリング後)を得ています。
12メガbpのゲノムで、です。
Schatz博士のプレゼンより引用
Pacのリードの特徴は、ご存じの通り、長く読めることです。 最新バージョンでは運が良ければ最高10kbまで読める!? かも。
長く読めるということは、大きなギャップやリピート配列も読める、という利点があります。
GCバイアスが無いということも相まって、読める場所と読めない場所に偏りが少ない、という利点もあります。
しかーし、出力される本数が少ないですし、エラー率がちょっと高め? なので、そこはハイスループットのショートリードシーケンサーたちの出番となるわけです。
そこでHybrid Assembly が必要になります。
では、Schatz博士の話に戻ります。
昨年、他のポスターにも発表していましたが、Schatz博士は以下の手順でパイプラインを組んでいます。
- ショートリード配列をトリムし、フィルタリングする
- きれいになったショートリードをPacBioのロングリードにマッピングする
- カバレージとギャップに基づいて、明らかに読み間違いと思われる場所はトリムする
- それぞれのロングリードw/ショートリードマッピングをもとにコンセンサス配列を作成し
- エラーが無くなったリードを使ってアセンブルする
Sanger からNGS に行き、また戻ってきた懐かしい感がしました。
また、上記、エラーを除去しているステップは、pacBioToCAというオープンソースで公開されています。
Schatz博士は講演の最後に、高等生物のde novo Assembly についても触れています。
ゲノムサイズ1.23Gbpのオウムです。
3パターンのアセンブルを試していました。
- Illumina の194X (インサート長が220、500、800bpのペアエンドと、同じく2K、5K、10Kbpのメイトペア)
- Roche 454 の15.4X(FLXとFLX Plus、3K、8K、10Kbpのペアエンド)
- Roche 454 の15.4X とPacBio 3.75X
RocheのみだとContig数が16,574で、N50が75,178bp、最長Contigは75,729bp
PacとRocheだとContig数が15,081で、N50が99,573bp、最長Contigは1,238,843bp
(個人的にはPacとIlluminaがほしかった・・・)
PacとRocheの組み合わせで、他と比べて、より長いContigが多く作られたことがわかります。
とはいっても、ゲノムサイズ1.23Gのうち、1.07Gしか読めていませんでした。
それにまだ、15,000以上のContigがつながらずにできてしまうのですね。
de novo Assembly は大変です。
他の生物(バクテリアとか)でも試されているようですので、詳しくは先程のリンクからSchatz博士のプレゼンPDFの最後の方のテーブルを参照のほど。
これはその一部
0 件のコメント:
コメントを投稿