2012年2月8日水曜日

de novo Hybrid Assembly

参照配列が無い生物の配列決定や、転座などの構造変化を見つけるために欠かせないのが、de novo Assembly です。
NGSでde novo Assembly といえば 定番中の定番かもしれませんね。

異なるプラットフォームのリードデータを合わせてアセンブることを Hybrid Assembly と言います。
例えばRoche FLXのロングリードと、イルミナGAIIxのショートリードを一緒にするAssembly のことです。
なぜこんなことをするかというと、ロングリードとショートリードにはそれぞれ一長一短があって、合わせることでそれぞれの短所を補いつつ、長所を生かしてより長い、より正確なContig を作れるからです。


先日、The Plant and Animal Genomes Meeting というのがサンディエゴでありました。 実際行ってはいませんが、そこで Cold Spring Harbor Laboratory の Michael Schatz 博士が、PacBioを使ったHybrid Assembly の講演をしましたので紹介します。
プレゼンのスライドは、Schatz博士のサイトにアップされていますので興味のあるかたはどうぞ(ここをクリック!)。

Schatz博士は、PacBio だけで酵母ゲノムを読んだところ、エラーに特徴があることがわかりました。
それは、
ミスマッチエラー(1.4%)よりも挿入(11.5%)や欠損(3.4%)が多いということでした。
全体的なエラーは83.7%で、Pacとしてはまあまあの値です。
ちなみに65個のSMRT Cellを使用して、734,151本のリード(フィルタリング後)を得ています。
12メガbpのゲノムで、です。
Schatz博士のプレゼンより引用


Pacのリードの特徴は、ご存じの通り、長く読めることです。 最新バージョンでは運が良ければ最高10kbまで読める!? かも。
長く読めるということは、大きなギャップやリピート配列も読める、という利点があります。
GCバイアスが無いということも相まって、読める場所と読めない場所に偏りが少ない、という利点もあります。

しかーし、出力される本数が少ないですし、エラー率がちょっと高め? なので、そこはハイスループットのショートリードシーケンサーたちの出番となるわけです。

そこでHybrid Assembly が必要になります。

では、Schatz博士の話に戻ります。
昨年、他のポスターにも発表していましたが、Schatz博士は以下の手順でパイプラインを組んでいます。
  1. ショートリード配列をトリムし、フィルタリングする
  2. きれいになったショートリードをPacBioのロングリードにマッピングする
  3. カバレージとギャップに基づいて、明らかに読み間違いと思われる場所はトリムする
  4. それぞれのロングリードw/ショートリードマッピングをもとにコンセンサス配列を作成し
  5. エラーが無くなったリードを使ってアセンブルする
近いうちに詳細は論文で明らかになりますが、面白いのは、アセンブラーに、Celera Assembler というクラシカルなもの(の改良版)を使っていることです。
Sanger からNGS に行き、また戻ってきた懐かしい感がしました。
また、上記、エラーを除去しているステップは、pacBioToCAというオープンソースで公開されています。

Schatz博士は講演の最後に、高等生物のde novo Assembly についても触れています。
ゲノムサイズ1.23Gbpのオウムです。
3パターンのアセンブルを試していました。
  1. Illumina の194X (インサート長が220、500、800bpのペアエンドと、同じく2K、5K、10Kbpのメイトペア)
  2. Roche 454 の15.4X(FLXとFLX Plus、3K、8K、10Kbpのペアエンド)
  3. Roche 454 の15.4X とPacBio 3.75X
IlluminaのみだとContig数が24,181で、N50が47,383bp、最長Contigは1,050,202bp
RocheのみだとContig数が16,574で、N50が75,178bp、最長Contigは75,729bp
PacとRocheだとContig数が15,081で、N50が99,573bp、最長Contigは1,238,843bp
(個人的にはPacとIlluminaがほしかった・・・)

PacとRocheの組み合わせで、他と比べて、より長いContigが多く作られたことがわかります。
とはいっても、ゲノムサイズ1.23Gのうち、1.07Gしか読めていませんでした。
それにまだ、15,000以上のContigがつながらずにできてしまうのですね。
de novo Assembly は大変です。
他の生物(バクテリアとか)でも試されているようですので、詳しくは先程のリンクからSchatz博士のプレゼンPDFの最後の方のテーブルを参照のほど。

これはその一部




0 件のコメント:

コメントを投稿