2013年10月17日木曜日

PacBio をヒトトランスクリプトーム解析へ Nature Biotech

久しぶり、3年ぶりくらいに、九州に来ています。 飛行機の窓から見える富士山はきれいでした。 羽田からだと左側の窓側に座れば、ちょうど富士山の真上を見ることができるんですよね。
冬は雪がかぶってもっときれいです。
その後、名古屋上空を飛び、関西上空を飛び、広島市上空を飛び、2時間ちょいで福岡空港です。
博多に高層ビルが無いのは、上空が飛行機の進入路になっているからなんですね。 高い建物は天神よりもっと港側に見えました。
 
さて、先週末、Nature Biotechに、PacBioを使用したヒトトランスクリプトームの論文が出ました。

 
論文のリンク
Stanford大のMike Snyder博士のチームは、ヒトの20種類の臓器・組織のRNAから、転写産物を全長で読むことに挑戦しました。
彼らの取り組みは、「PacBioでヒトの転写産物を完全長で読むことができる」ことを示した最初の論文です。
彼らの研究は、私も部分的にはフォローしていましたが、恥ずかしながら、解析手法を誤解していました。
てっきり、ロングのサブリードを、ショートリードなどでエラー補正してからゲノムにマッピングしたと思い込んでいました。しかし彼らはCCSを使い、エラー補正しないでゲノムにマッピングしています。
エラー補正をするということは、ショートリードのマッピングバイアスがかかる、ということです。
これは厳密にはPacBioの良さ(リピートに強い、GC含量によらない、一定のカバレッジ、などの特徴)を打ち消してしまうことになります。 彼らもそれを述べていて、エラー補正のいらないほど十分に精度の高い、CCSを使うことにしたそうです。

CCSは、デフォルトでは、ライブラリサイズの2パス以上読んだときの、そのコンセンサス配列です。
現在は、5~6パス程度で99%の精度になります。
「デフォルトでは」と書いたのは、間もなくリリースされる二次解析ソフトウェアSMRT Analysis 2.1 では、ユーザが自由にパスの条件を変えることができるからです。

それはさておき、彼らはCCSを採用した。
その数476,000 相当な数です。
彼らは長さで分けてライブラリを作らずに、(サイズセレクションをせずに)、全ての種類の転写産物を一度に読んでいます。 CCSの平均長は1kbだったそうです。

CCSは2パス以上読んだときのコンセンサスですので、CCSの平均長が1kbだとすると、最低2kb以上は読めている必要があります。
彼らが実験をしたときはXL/C2試薬で、55分Movieで2回(合計15万ZMW)読んでいますので、およそ、平均3kbの長さのリードを読めていると思います。
これも経験上の想像ですが、1セルあたり15万ZMWの30%からちゃんとしたデータが出て、出力5万リード、さらにそのうち2kb以上のリードが6割くらいあったとすると12,000本リード。これがCCSとなります。
1セルあたり12,000CCSと仮定すると、476,000CCSを出すのには、40セル必要になるわけで、これはちょっと、計算を誤った感あり。

もちろん今は、P4/C2試薬といって、XL/C2よりも精度・スループットともに向上していますので、このセル数の推定は正しくはありません。

しかし、CCSを使うとなると、それだけスループットを犠牲にしなければならないのは変わりません。
そういうわけで、今後出てくる論文は、CCSよりもサブリード、それもエラー補正したサブリード、を主役に持ってくるはずです。
私は個人的には、CCSに期待しています。それは先の理由で、ショートリードで補正したらショートのバイアスがかかってしまうからです。

最後にライブラリの話を少しします。
PacBioが公開している「今の」cDNAプロトコルでは、ライブラリを3種類に分けることを推奨しています。
cDNAにしたあと増幅してゲルに流して、1.5kb未満、1.5kbから3.0kb、3.0kb以上、という3種類のサイズに分けてからライブラリを作り、それぞれ別々に読みます。 これは、ローディングバイアスという、PacBioのSMRT Cell独自の性質を回避するためです。
短いライブラリ程ZMWに入りやすいので、結果として短いライブラリばかり読まれてしまう、という現象を、ローディングバイアスといいます。
これを防ぐために、ライブラリサイズを3つに分けて、別々のセルで読むのです。

しかし今回の論文では、これを行っていません。
CCSの多くが1.5kb未満だったという結果は、ローディングバイアスによるものなのか、ほとんどの転写産物は1.5kb未満という知見に一致するからこれが真実なのか、私にはいまひとつはっきりわかりません。

ちなみに、454のデータとも比較しており、PacBioで読んだ方がGENCODEの登録遺伝子をより多くカバーしていた、という嬉しい結果も書かれていました!

0 件のコメント:

コメントを投稿