2013年6月21日金曜日

150KとP4

突然ですが、今年の流行語大賞は何でしょうね? 
「アベノミクス」、「今でしょう?」、この2つのどっちかじゃないか、と今から予想しています。
http://singo.jiyu.co.jp/index.htmlを見ると、ああ、そういう言葉もはやったね、と思いますが、流行語ってほとんど定着しないんですね。
アベノミクスが来年忘れられるようでは困りますが、「今でしょう?」はまさに今しか受けない、というか、そろそろ使用期限が切れるフレーズかな?
小学生の間ではまだすごいブームらしいです。


さてさて、ユーザーの方にはもちろんアナウンス済みですが、PacBioはハード・ソフトの両面でバージョンアップします(しました)。

ハードは、以前「第一回アジアユーザーミーティング in シンガポール」でも触れた、RSIIです。 

これは今まで、一度に読めるZMWの数が75,000だったのが、レーザーの光を分散させる光学機器の改善で、一度に150,000読めるようになったことです。
120分Movieで今まで750,000しか読めなかったのが2倍読めるようになった。つまりデータスループットが2倍になったことを意味します。
 
1セルあたりおよそ200Mbp、というのは控えめかもしれません。
私たちがあるバクテリアを10kbライブラリで読んでみた時、Productivity=1(信頼のあるリードデータ)が31%くらいのデータで、220Mbpでした。
その時はN=3でしたが、以来サンプルを変えて何セル読んでも大体今までの2倍は読める。
宣伝に偽り無し、でほっと一安心! (← ユーザーの立場での感想)
上図の、左側が今までのRS、右がRSII
リード長がX軸で、Y軸にその本数を示しています。 縮尺を合わせました。 どちらもProductivity=1が31%で、RSが102Mbp、RSIIが221Mbpのスループットでした。
分布「形」にはあまり差は無いのがわかるでしょう? 高さは大きく変わっています。
 
 
バージョンアップのソフトの方、こちらは、 酵素です。
P4という酵素がリリースされました。
こちらは、すごい改善! というわけでは無いのですが、より安定して、今までと同じく長く読める酵素です。
今まで、C2とXLという2種類の酵素がありました。
C2は精度は良いがスピードが遅いので長さがいまいち(平均3300bpくらい)
XLは精度が若干落ちるがスピードが速いので平均4000bpくらい
 
P4は、C2とXLの良いとこ取り、で、C2の精度を保ちつつXLの長さを獲得した酵素です。
例えば、4.65Mbpのゲノムサイズのバクテリアを、C2、XL、P4の3種類で読んだデータがPacBioのプレゼンにあります。
10kbライブラリでセルを2個使って読み、HGAP-Celera Assembler でアセンブリしています。
C2とP4は最終的にContigが1つになりました。
XLでContigが1つにならなかったのは何で?とツッコミたくなりますが、それには触れていません。
注目すべきはマッピングできたサブリードの精度で、
  • C2  86.21%
  • XL  84.09%
  • P4  88.28%
 
さらにContigの精度も、Phredスコアで言うと
  • C2  58 (21x, 97x)
  • XL  49 (16x, 113x)
  • P4  57 (22x, 112x)
括弧内最初は、アセンブルする直前の、HGAPでエラー補正した後のリードカバレッジ、次はHGAPエラー補正する前のリードカバレッジ
つまりP4では、セル2個使って112カバレッジのリードを得、HGApでエラー補正して22xに減ったものの、22xを使ってアセンブルしたらQV57のContigが1本できた、という意味です。
 
私たちでも、20kbライブラリを作って、P4酵素で読んでいます。
結果は素晴らしいものでした。
これは日を改めて、お知らせしたいと思います。
「NGS現場の会」のネタにもしたいと思っています!!
 
 

0 件のコメント:

コメントを投稿