2013年1月16日水曜日

ライブラリ調整無しにPacBioシーケンス (論文)

ライブラリ無しにシーケンス?
って驚いたかもしれません。
ハイ、この論文、昨年末に出ました。
Coupland P. et al. (2012) Direct sequencing of small genomes on the Pacific Biosciences RS without library preparation. Biotechniques 53, 365.
PubMed

PacBioのシーケンスのハードルは、最初に用意するDNA量が多いことです。
Shearing前には5μg以上必要なときもあります。
そこでこのスターティング量を減らすべく、MagBeadsという磁気ビーズでロードする方法が開発されたのですが、さらにさらに少ない量しか無い時の、プロトコルの話です。
詳細は、割愛するとして、まずは出力結果と精度から。

上記の論文より引用
 
100ngから読むことができ、最少では0.8ngのInput DNA 量というのは驚きです。
ただし、リード数は少ないです。
 
ですが、少ないInput量でもちゃんと読める(コンセンサス精度が100%)、ということと、Wellcome Trust Sanger Instituteという、権威ある、Pac以外の第三者が出している論文ということで社内でも評価は高いです。
 
Pacのソフトでもちゃんと解析してくれて、Base Modificationまで検出できた、などと言ってくれるのは嬉しい!
 
さて、このような、SMRT Bell無しでのシーケンスへの取り組みは、かなり前から行われています。
すでにいくつかのプロトコルが試されていて、少量のDNAからの読み取りに成功していると聞きます。
今はダンベル型のライブラリですが、近い将来、線形ライブラリも出てくるかもしれません。
約束はできませんけれど。
 
当たり前ですが、線形ライブラリになった場合、Circular Consensus はできませんね。
10kbとか、長いインサート用になるでしょう。
長いインサートで、かつインプット量が少なくて済むなら、・・・ うーん、需要は高そうです。
10x 20x取れれば、コンセンサスの精度はQV50(99.999%)以上になるので、例えば、forensicsみたいにごく少量のDNAしか取れないような分野に応用できないかあ、と思ったり。
 
 

2013年1月15日火曜日

PacBioのリード長、最高20Kb突破!

本当はこの話は昨年の年末に書いたのですが、ブログのサーバの不具合で投稿されていませんでしたので、再投稿。 
以下のデータは12月のものです。 今はもっとたくさんありますが、それはおいおい。

さて、今の会社に入って1年が経ちました。
早いなあ、と感じる一方、1年前が3年くらい前に感じます。 ものすごく密度の濃い1年でした。
まあ、事業部の立ち上げ初年度でしたので、いろいろ手探り状態から始まり、PacBioからは毎月いや毎週かな、ひとが来る。

海外とやり取りが増えると、当たり前ですが時差があるので土曜もメールが来る。
スマホの有り難みを肌で実感です!! その分忙しくなった・・・。
海外の知り合いはとても増えました。
この業界は狭い、というのは海外も同じだということもわかりました。みんなどこかでつながっている。

他のシーケンサーメーカーもそうでしょうが、PacBioは常に進化しているので、ついていくのが大変です。 
1年前に書いたことがもう時代遅れになる。
このブロブもそういうつもりで読んで頂ければ幸いです。
カタログも書き換えなくてはいけないかも。

そこで、1年前に書いたことが古い情報になる例をひとつ示します。


このグラフと数値は、今のカタログに出ているものです。
10kbのライブラリを、90分Movieで測定したときです。

私が昨年5月に「NGS現場の会」で喋ったとき、後から座談会みたいなテーブルで、このリードの長さは将来どれだけ伸びるか、という質問を受けました。
皆さん、ロングリードに興味のあるひとはこの点を聞いてきますね。 
1.5倍くらい伸びる、と答えた記憶があります。

そしてあれから7ヶ月後、最新のデータはこちらです。 恐らくこれがオフィシャルなカタログ数値となるでしょう。

  • 平均Mappedリード長: 4,500 bp
  • 95th Percentile: 12,000 bp
  • 最大リード長: 21,000 bp
 
これはPacで11kbのライブラリを、最新の試薬で120分のMovieで読んだ時のものです。

実は、XL(Extra Long) Chemistry という新しい試薬&酵素が最近リリースされました。
諸般の事情で正式リリースが遅れましたが、日本でも今随時アップグレードしつつあるところです。
そう、アップグレードによって、120分のMovieで読めるようになったのです!

われわれも実際、アップグレードして読んでみました。
11kbのコントロールを、120分で読んでいます。
上のグラフは、アダプターを取っただけの、サブリード長が横軸に、その数が左縦軸に。
まだマップさせていません。
Subread Length = 11kbのあたりにピークがありますね。

実は11kbジャストのライブラリではありません。ちょっと長いものも、短い(数千bp)ものもあります。
しかし、アダプター間の距離を見たところ、このランしたサンプルのインサートサイズで一番多いのは、11kbでした。
ではなぜ上のように、11kb未満(11000より左側)のサブリードが多数を占めているのか?

理由1: 11kbのインサートで、11kb以上読めた場合、例えば15kb読めた場合、アダプターをぐるっと回って相補鎖側の4kb(15-11= 4kb)がもうひとつのサブリードとしてカウントされる

理由2: 短いインサートは、長いMovie時間読まれれば、それだけ多くのサブリードを生産するだろう。 グラフの縦軸はサブリードの数なので、短いインサートから生産される多くのサブリードが多くを占めて見える。

からかな?

このグラフがリファレンスにマップさせた後のリード長の分布
縦軸がリードの数、横軸がMappedリード長
さて、数字は次の通り

  • フィルタリング前の全ZMW数:  75,153
  • そのうち解析可能なデータが出力されたZMWの割合:  28.6% (これはちょっと少なめだ)
  • クオリティと長さ(50bp)でフィルタリングした後のリード数:  21,495 

もうすこし多くのリード数が得られれば、もうちょっとグラフの形も変わるかも。
まあ、初回のランなのでこんなもんでしょう。
それよりリード長に注目!
  • サブリード単位のマッピング精度の平均:  86.29% 
  • マップされたリード数:  20,193 
  • マップされたリードの平均長:  4,918 bp 
  • 95th Percentile マップされたリード長:  13,016 bp 
  • マップされたリードの最大リード長:  23,540 bp 
確かに長い! 長くなってる
でもこれ、ラムダコントロールのサンプルですからねえ。読めて当たり前かな。 
実際のサンプルで読んだらどうでしょうね。 (<-再投稿している1月現在ではバンバン読んでいます。結果はそのうちに)
Yieldはもっと改善できるでしょう。

今年は、より長くなったリードで、より多くのプロジェクトが進むといいですね。


・・・ 追記
さてさて、ここまでは「今の」スループットの話。
PacBioや私たちのプレゼンを実際に聞いたひとは、知っていると思いますが、上記に示した数値はあと数ヶ月すると変わっているでしょう。
もちろんYield(リード出力数)、リード長共に、良いほうに。

今年も忙しくなるなあ。

2013年1月14日月曜日

Pacの影の立役者


先週、東京大学で行われた "新学術領域「ゲノム支援」国際シンポジウム" に参加してきました。

PacBioからは、創設者のひとりであるJonas Korlach氏が講演。
彼は度々Menlo Parkへ行った時に会っていましたが、すごく頭の切れるひとです。
シンポジウムには、PacBioのエラーコレクションで度々登場するpacBioToCAの開発者であるSergey Koren氏も。 個人的には今回初めて会いました。
JonasさんはPacBio社の中ではCSO(Chief Science Officer)という大変偉い肩書きなんですが、とても話しやすく、親しみやすい性格です。典型的なドイツ系、真面目で堅実。

彼は、PacBioを使ったメチレーション検出の論文には必ず登場します。
バックグランドが分子生物学で、最初はポリメラーゼの動きに興味があったそうです。
ヌクレオチド取り込みの時に酵素の立体構造が変化する。 その時の、動きの変化、の方に最初興味があったとのことです。
DNAシーケンスよりもポリメラーゼに惹かれていたんですね。
やがて、ZMWとSMRT Cellができて、DNA配列を読んでいる時に気がつきます。 
リアルタイムで読んでいるから、同じ配列を読んだ時、Kineticsデータ(パルスとかに現れる、ポリメラーゼの塩基取り込み時間のデータ)も同じになるのではないか、と。 

実際、2つの全く別の箇所にある同じ配列の、Kineticsデータは、ほとんど一致したのです!
そこから、ポリメラーゼの動きのパターンが配列に相関するなら、その動きの変化からDNA配列上に起こっている何らかの修飾(塩基修飾)も予測できるのではないか、と思ったそうです。

以来、PacBioRSは配列を長く読むことに開発資源を投入しているように見えますが、裏ではずっと、Kineticsデータからの塩基修飾予測に力を入れてきました。
昨年後半から、コンスタントに、PacBioを使った塩基修飾の論文が出ています。
まだバクテリアに関するものばかりですが、いずれ、真核生物の修飾も論文に出てくるでしょう。
世界中のPacBioユーザーが、この分野で挑戦しています。
まったく新しい技術なのでトライアンドエラーの繰り返しでしょうが、失敗を恐れずこれを突破するひとが出てくるでしょう。

最新のメチレーション関連の論文(ほーらここにもJonasさん登場):
Maria Lluch-Senar et.al (2013). Comprehensive Methylome Characterization of Mycoplasma genitalium and Mycoplasma pneumoniae at Single-Base Resolution. PLoS Genetics 9 e1003191
Pubmed