パックマンの挑戦　－　PacBioシークエンサー: de novo Hybrid Assembly

参照配列が無い生物の配列決定や、転座などの構造変化を見つけるために欠かせないのが、de novo Assembly です。
NGSでde novo Assembly といえば定番中の定番かもしれませんね。

異なるプラットフォームのリードデータを合わせてアセンブることを Hybrid Assembly と言います。
例えばRoche FLXのロングリードと、イルミナGAIIxのショートリードを一緒にするAssembly のことです。
なぜこんなことをするかというと、ロングリードとショートリードにはそれぞれ一長一短があって、合わせることでそれぞれの短所を補いつつ、長所を生かしてより長い、より正確なContig を作れるからです。

先日、The Plant and Animal Genomes Meeting というのがサンディエゴでありました。　実際行ってはいませんが、そこで Cold Spring Harbor Laboratory の Michael Schatz 博士が、PacBioを使ったHybrid Assembly の講演をしましたので紹介します。
プレゼンのスライドは、Schatz博士のサイトにアップされていますので興味のあるかたはどうぞ（ここをクリック！）。

Schatz博士は、PacBio だけで酵母ゲノムを読んだところ、エラーに特徴があることがわかりました。
それは、
ミスマッチエラー（1.4%）よりも挿入（11.5%）や欠損（3.4%）が多いということでした。
全体的なエラーは83.7%で、Pacとしてはまあまあの値です。
ちなみに65個のSMRT Cellを使用して、734,151本のリード（フィルタリング後）を得ています。
12メガbpのゲノムで、です。

Schatz博士のプレゼンより引用

Pacのリードの特徴は、ご存じの通り、長く読めることです。　最新バージョンでは運が良ければ最高10kbまで読める!? かも。
長く読めるということは、大きなギャップやリピート配列も読める、という利点があります。
GCバイアスが無いということも相まって、読める場所と読めない場所に偏りが少ない、という利点もあります。

しかーし、出力される本数が少ないですし、エラー率がちょっと高め? なので、そこはハイスループットのショートリードシーケンサーたちの出番となるわけです。

そこでHybrid Assembly が必要になります。

では、Schatz博士の話に戻ります。
昨年、他のポスターにも発表していましたが、Schatz博士は以下の手順でパイプラインを組んでいます。

ショートリード配列をトリムし、フィルタリングする
きれいになったショートリードをPacBioのロングリードにマッピングする
カバレージとギャップに基づいて、明らかに読み間違いと思われる場所はトリムする
それぞれのロングリードw/ショートリードマッピングをもとにコンセンサス配列を作成し
エラーが無くなったリードを使ってアセンブルする

近いうちに詳細は論文で明らかになりますが、面白いのは、アセンブラーに、Celera Assembler というクラシカルなもの（の改良版）を使っていることです。
Sanger からNGS に行き、また戻ってきた懐かしい感がしました。
また、上記、エラーを除去しているステップは、pacBioToCAというオープンソースで公開されています。

Schatz博士は講演の最後に、高等生物のde novo Assembly についても触れています。
ゲノムサイズ1.23Gbpのオウムです。
3パターンのアセンブルを試していました。

Illumina の194X （インサート長が220、500、800bpのペアエンドと、同じく2K、5K、10Kbpのメイトペア）
Roche 454 の15.4X（FLXとFLX Plus、3K、8K、10Kbpのペアエンド）
Roche 454 の15.4X とPacBio 3.75X

IlluminaのみだとContig数が24,181で、N50が47,383bp、最長Contigは1,050,202bp
RocheのみだとContig数が16,574で、N50が75,178bp、最長Contigは75,729bp
PacとRocheだとContig数が15,081で、N50が99,573bp、最長Contigは1,238,843bp
（個人的にはPacとIlluminaがほしかった・・・）

PacとRocheの組み合わせで、他と比べて、より長いContigが多く作られたことがわかります。
とはいっても、ゲノムサイズ1.23Gのうち、1.07Gしか読めていませんでした。
それにまだ、15,000以上のContigがつながらずにできてしまうのですね。
de novo Assembly は大変です。
他の生物（バクテリアとか）でも試されているようですので、詳しくは先程のリンクからSchatz博士のプレゼンＰＤＦの最後の方のテーブルを参照のほど。

これはその一部

パックマンの挑戦　－　PacBioシークエンサー

2012年2月8日水曜日

de novo Hybrid Assembly

0 件のコメント:

コメントを投稿