2013年10月23日水曜日

Human 10x データ公開

お待たせしました!
って、待ってないかな? Humanを10xで読んだときのデータが公開されました。

Evan Eichler 博士(Howard Hughes Medical Institute, University of Washington)との共同で、このたびPacBioでは、CHM1TERTセルラインを読みました。
詳しくはPacBioのブログにのっています。

以下は、DevNet(PacBioの別サイト)から
Sequencing Data Statistics
Total number of reads: 3,679,463
Total number of post-filtered bases: 32,559,803,198

Read length statistics      
Half of sequenced bases in reads greater than: 10,985 bp
5% of reads longer than: 19,060 bp

SMRTbell template statistics
Longest DNA insert sequenced: 41,460 bp
5% of sequenced DNA inserts longer than: 18,060 bp
Average sequenced DNA insert length: 7,406 bp

PacBio RS II instrument time for sequencing: 10 days
Number of SMRT Cells: 66
20kbライブラリを、Blue Pippinでサイズセレクションして、最新試薬P5C3で読んでいます。
ちなみにまだ、この試薬はアメリカの限られたサイトでのみ使用可です。
日本ではもう少しかかりますね。

PacBioのブログに行けば、サブリードのグラフも見てとれますが、結構すごい。
15kbとか25kbとか、読めてます。

10日間、66セルを使って、ヒトゲノムの10xデータ

彼らはhg19(GRCh37)にマッピングして、Deletionなどを見つけています。
ところで今、BostonのASHGに来ているのですが、ちょうどさっきGRCh38はこうなる!みたいな話を聞きました。
37よりもCentromere や、Gapのデータが更新されているそうです。
1000人ゲノムデータやOptical Mappingのデータも使ってかなりの更新になるそうです。
くわしくは彼らのブログをチェック!

このPacのデータも、GRCh38にマップしてみたい!

ところで、先ほどの10xのPacデータ、Pacブログのところに書いてある通り、ダウンロードできます。
メールを送ると自動でURLが帰ってきますので、興味ある方はどうぞ。
マッピングデータ(BAM)だけでも価値はあるかも。

2013年10月18日金曜日

PacBio をヒトトランスクリプトーム解析へ Nature Biotech (補足)

先日の投稿の補足です。

CCSを476,000本とるのに何セル使ったのか、どうしても気になったので著者に聞いてみました。
使用したのは35セルだそうです。

40セルくらいかな、と予想した数がまんざら外れてはいませんでした!

彼らがシークエンスした当時のマシンのバージョンは、RS I、使用試薬はXL/C2、Movieは55分 です。
今なら、RS II、P4/C2、120分Movieで読めるので、1セルあたり50,000くらいのCCSはできるだろう、というコメントをいただきました。
それなら10セル程度で、476,000本は取れるでしょう。
良い感じ。

2013年10月17日木曜日

PacBio をヒトトランスクリプトーム解析へ Nature Biotech

久しぶり、3年ぶりくらいに、九州に来ています。 飛行機の窓から見える富士山はきれいでした。 羽田からだと左側の窓側に座れば、ちょうど富士山の真上を見ることができるんですよね。
冬は雪がかぶってもっときれいです。
その後、名古屋上空を飛び、関西上空を飛び、広島市上空を飛び、2時間ちょいで福岡空港です。
博多に高層ビルが無いのは、上空が飛行機の進入路になっているからなんですね。 高い建物は天神よりもっと港側に見えました。
 
さて、先週末、Nature Biotechに、PacBioを使用したヒトトランスクリプトームの論文が出ました。

 
論文のリンク
Stanford大のMike Snyder博士のチームは、ヒトの20種類の臓器・組織のRNAから、転写産物を全長で読むことに挑戦しました。
彼らの取り組みは、「PacBioでヒトの転写産物を完全長で読むことができる」ことを示した最初の論文です。
彼らの研究は、私も部分的にはフォローしていましたが、恥ずかしながら、解析手法を誤解していました。
てっきり、ロングのサブリードを、ショートリードなどでエラー補正してからゲノムにマッピングしたと思い込んでいました。しかし彼らはCCSを使い、エラー補正しないでゲノムにマッピングしています。
エラー補正をするということは、ショートリードのマッピングバイアスがかかる、ということです。
これは厳密にはPacBioの良さ(リピートに強い、GC含量によらない、一定のカバレッジ、などの特徴)を打ち消してしまうことになります。 彼らもそれを述べていて、エラー補正のいらないほど十分に精度の高い、CCSを使うことにしたそうです。

CCSは、デフォルトでは、ライブラリサイズの2パス以上読んだときの、そのコンセンサス配列です。
現在は、5~6パス程度で99%の精度になります。
「デフォルトでは」と書いたのは、間もなくリリースされる二次解析ソフトウェアSMRT Analysis 2.1 では、ユーザが自由にパスの条件を変えることができるからです。

それはさておき、彼らはCCSを採用した。
その数476,000 相当な数です。
彼らは長さで分けてライブラリを作らずに、(サイズセレクションをせずに)、全ての種類の転写産物を一度に読んでいます。 CCSの平均長は1kbだったそうです。

CCSは2パス以上読んだときのコンセンサスですので、CCSの平均長が1kbだとすると、最低2kb以上は読めている必要があります。
彼らが実験をしたときはXL/C2試薬で、55分Movieで2回(合計15万ZMW)読んでいますので、およそ、平均3kbの長さのリードを読めていると思います。
これも経験上の想像ですが、1セルあたり15万ZMWの30%からちゃんとしたデータが出て、出力5万リード、さらにそのうち2kb以上のリードが6割くらいあったとすると12,000本リード。これがCCSとなります。
1セルあたり12,000CCSと仮定すると、476,000CCSを出すのには、40セル必要になるわけで、これはちょっと、計算を誤った感あり。

もちろん今は、P4/C2試薬といって、XL/C2よりも精度・スループットともに向上していますので、このセル数の推定は正しくはありません。

しかし、CCSを使うとなると、それだけスループットを犠牲にしなければならないのは変わりません。
そういうわけで、今後出てくる論文は、CCSよりもサブリード、それもエラー補正したサブリード、を主役に持ってくるはずです。
私は個人的には、CCSに期待しています。それは先の理由で、ショートリードで補正したらショートのバイアスがかかってしまうからです。

最後にライブラリの話を少しします。
PacBioが公開している「今の」cDNAプロトコルでは、ライブラリを3種類に分けることを推奨しています。
cDNAにしたあと増幅してゲルに流して、1.5kb未満、1.5kbから3.0kb、3.0kb以上、という3種類のサイズに分けてからライブラリを作り、それぞれ別々に読みます。 これは、ローディングバイアスという、PacBioのSMRT Cell独自の性質を回避するためです。
短いライブラリ程ZMWに入りやすいので、結果として短いライブラリばかり読まれてしまう、という現象を、ローディングバイアスといいます。
これを防ぐために、ライブラリサイズを3つに分けて、別々のセルで読むのです。

しかし今回の論文では、これを行っていません。
CCSの多くが1.5kb未満だったという結果は、ローディングバイアスによるものなのか、ほとんどの転写産物は1.5kb未満という知見に一致するからこれが真実なのか、私にはいまひとつはっきりわかりません。

ちなみに、454のデータとも比較しており、PacBioで読んだ方がGENCODEの登録遺伝子をより多くカバーしていた、という嬉しい結果も書かれていました!