パックマンの挑戦　－　PacBioシークエンサー: 150KとP4

突然ですが、今年の流行語大賞は何でしょうね？　
「アベノミクス」、「今でしょう？」、この2つのどっちかじゃないか、と今から予想しています。
http://singo.jiyu.co.jp/index.htmlを見ると、ああ、そういう言葉もはやったね、と思いますが、流行語ってほとんど定着しないんですね。
アベノミクスが来年忘れられるようでは困りますが、「今でしょう？」はまさに今しか受けない、というか、そろそろ使用期限が切れるフレーズかな？
小学生の間ではまだすごいブームらしいです。

さてさて、ユーザーの方にはもちろんアナウンス済みですが、PacBioはハード・ソフトの両面でバージョンアップします（しました）。

ハードは、以前「第一回アジアユーザーミーティング in シンガポール」でも触れた、RSIIです。　

これは今まで、一度に読めるZMWの数が75,000だったのが、レーザーの光を分散させる光学機器の改善で、一度に150,000読めるようになったことです。
120分Movieで今まで750,000しか読めなかったのが2倍読めるようになった。つまりデータスループットが2倍になったことを意味します。

1セルあたりおよそ200Mbp、というのは控えめかもしれません。

私たちがあるバクテリアを10kbライブラリで読んでみた時、Productivity=1（信頼のあるリードデータ）が31%くらいのデータで、220Mbpでした。

その時はN=3でしたが、以来サンプルを変えて何セル読んでも大体今までの2倍は読める。

宣伝に偽り無し、でほっと一安心！　（←　ユーザーの立場での感想）

上図の、左側が今までのRS、右がRSII

リード長がX軸で、Y軸にその本数を示しています。　縮尺を合わせました。　どちらもProductivity=1が31%で、RSが102Mbp、RSIIが221Mbpのスループットでした。

分布「形」にはあまり差は無いのがわかるでしょう？　高さは大きく変わっています。

バージョンアップのソフトの方、こちらは、酵素です。

P4という酵素がリリースされました。

こちらは、すごい改善！　というわけでは無いのですが、より安定して、今までと同じく長く読める酵素です。

今まで、C2とXLという2種類の酵素がありました。

C2は精度は良いがスピードが遅いので長さがいまいち（平均3300bpくらい）

XLは精度が若干落ちるがスピードが速いので平均4000bpくらい

P4は、C2とXLの良いとこ取り、で、C2の精度を保ちつつXLの長さを獲得した酵素です。

例えば、4.65Mbpのゲノムサイズのバクテリアを、C2、XL、P4の3種類で読んだデータがPacBioのプレゼンにあります。

10kbライブラリでセルを2個使って読み、HGAP-Celera Assembler でアセンブリしています。

C2とP4は最終的にContigが1つになりました。

XLでContigが1つにならなかったのは何で？とツッコミたくなりますが、それには触れていません。

注目すべきはマッピングできたサブリードの精度で、

C2 86.21%
XL 84.09%
P4 88.28%

さらにContigの精度も、Phredスコアで言うと

C2 58 (21x, 97x)
XL 49 (16x, 113x)
P4 57 (22x, 112x)

括弧内最初は、アセンブルする直前の、HGAPでエラー補正した後のリードカバレッジ、次はHGAPエラー補正する前のリードカバレッジ

つまりP4では、セル2個使って112カバレッジのリードを得、HGApでエラー補正して22xに減ったものの、22xを使ってアセンブルしたらQV57のContigが1本できた、という意味です。

私たちでも、20kbライブラリを作って、P4酵素で読んでいます。

結果は素晴らしいものでした。

これは日を改めて、お知らせしたいと思います。

「NGS現場の会」のネタにもしたいと思っています！！

パックマンの挑戦　－　PacBioシークエンサー

2013年6月21日金曜日

150KとP4

0 件のコメント:

コメントを投稿