2013年1月15日火曜日

PacBioのリード長、最高20Kb突破!

本当はこの話は昨年の年末に書いたのですが、ブログのサーバの不具合で投稿されていませんでしたので、再投稿。 
以下のデータは12月のものです。 今はもっとたくさんありますが、それはおいおい。

さて、今の会社に入って1年が経ちました。
早いなあ、と感じる一方、1年前が3年くらい前に感じます。 ものすごく密度の濃い1年でした。
まあ、事業部の立ち上げ初年度でしたので、いろいろ手探り状態から始まり、PacBioからは毎月いや毎週かな、ひとが来る。

海外とやり取りが増えると、当たり前ですが時差があるので土曜もメールが来る。
スマホの有り難みを肌で実感です!! その分忙しくなった・・・。
海外の知り合いはとても増えました。
この業界は狭い、というのは海外も同じだということもわかりました。みんなどこかでつながっている。

他のシーケンサーメーカーもそうでしょうが、PacBioは常に進化しているので、ついていくのが大変です。 
1年前に書いたことがもう時代遅れになる。
このブロブもそういうつもりで読んで頂ければ幸いです。
カタログも書き換えなくてはいけないかも。

そこで、1年前に書いたことが古い情報になる例をひとつ示します。


このグラフと数値は、今のカタログに出ているものです。
10kbのライブラリを、90分Movieで測定したときです。

私が昨年5月に「NGS現場の会」で喋ったとき、後から座談会みたいなテーブルで、このリードの長さは将来どれだけ伸びるか、という質問を受けました。
皆さん、ロングリードに興味のあるひとはこの点を聞いてきますね。 
1.5倍くらい伸びる、と答えた記憶があります。

そしてあれから7ヶ月後、最新のデータはこちらです。 恐らくこれがオフィシャルなカタログ数値となるでしょう。

  • 平均Mappedリード長: 4,500 bp
  • 95th Percentile: 12,000 bp
  • 最大リード長: 21,000 bp
 
これはPacで11kbのライブラリを、最新の試薬で120分のMovieで読んだ時のものです。

実は、XL(Extra Long) Chemistry という新しい試薬&酵素が最近リリースされました。
諸般の事情で正式リリースが遅れましたが、日本でも今随時アップグレードしつつあるところです。
そう、アップグレードによって、120分のMovieで読めるようになったのです!

われわれも実際、アップグレードして読んでみました。
11kbのコントロールを、120分で読んでいます。
上のグラフは、アダプターを取っただけの、サブリード長が横軸に、その数が左縦軸に。
まだマップさせていません。
Subread Length = 11kbのあたりにピークがありますね。

実は11kbジャストのライブラリではありません。ちょっと長いものも、短い(数千bp)ものもあります。
しかし、アダプター間の距離を見たところ、このランしたサンプルのインサートサイズで一番多いのは、11kbでした。
ではなぜ上のように、11kb未満(11000より左側)のサブリードが多数を占めているのか?

理由1: 11kbのインサートで、11kb以上読めた場合、例えば15kb読めた場合、アダプターをぐるっと回って相補鎖側の4kb(15-11= 4kb)がもうひとつのサブリードとしてカウントされる

理由2: 短いインサートは、長いMovie時間読まれれば、それだけ多くのサブリードを生産するだろう。 グラフの縦軸はサブリードの数なので、短いインサートから生産される多くのサブリードが多くを占めて見える。

からかな?

このグラフがリファレンスにマップさせた後のリード長の分布
縦軸がリードの数、横軸がMappedリード長
さて、数字は次の通り

  • フィルタリング前の全ZMW数:  75,153
  • そのうち解析可能なデータが出力されたZMWの割合:  28.6% (これはちょっと少なめだ)
  • クオリティと長さ(50bp)でフィルタリングした後のリード数:  21,495 

もうすこし多くのリード数が得られれば、もうちょっとグラフの形も変わるかも。
まあ、初回のランなのでこんなもんでしょう。
それよりリード長に注目!
  • サブリード単位のマッピング精度の平均:  86.29% 
  • マップされたリード数:  20,193 
  • マップされたリードの平均長:  4,918 bp 
  • 95th Percentile マップされたリード長:  13,016 bp 
  • マップされたリードの最大リード長:  23,540 bp 
確かに長い! 長くなってる
でもこれ、ラムダコントロールのサンプルですからねえ。読めて当たり前かな。 
実際のサンプルで読んだらどうでしょうね。 (<-再投稿している1月現在ではバンバン読んでいます。結果はそのうちに)
Yieldはもっと改善できるでしょう。

今年は、より長くなったリードで、より多くのプロジェクトが進むといいですね。


・・・ 追記
さてさて、ここまでは「今の」スループットの話。
PacBioや私たちのプレゼンを実際に聞いたひとは、知っていると思いますが、上記に示した数値はあと数ヶ月すると変わっているでしょう。
もちろんYield(リード出力数)、リード長共に、良いほうに。

今年も忙しくなるなあ。

0 件のコメント:

コメントを投稿