パックマンの挑戦　－　PacBioシークエンサー: 2月 2014

2014年2月19日水曜日

PacBioデータだけでヒトゲノム54X

AGBTに参加された方はこのニュースをフロリダで聞いたのかもしれません。　（私は日本でしたが）

PacBioは昨年、バクテリアサイズのゲノムアセンブリにおいては、ライバルはいない！　と言っても過言ではないほど、確固たる地位をつくりました。

チャレンジは少しずつ大きなゲノムサイズに移り、ホウレンソウゲノム、Arabidopsisゲノム、Drosophilaゲノムも、PacBioだけで読める、アセンブリできる、というレベルになりました。

そして、今、まさに時代はヒトゲノムをPacBioだけでアセンブリしようというステージに突入！

PacBioブログには12日に発表されていますが、Washington University in St. LouisのRick Wilson博士、University of WashingtonのEvan Eichler博士らのグループは、Haploidのセルラインである CHM1htertを、PacBioのデータのみで何と、54カバレッジも読んだそうです！

以前、彼らはここのブログでヒトゲノム10x読んで、それを公開したことを報告しましたが、今回はこれをさらに44x分読み足したということです。
これにより、NIHのAlternate reference assemblyはより精度が上がることが予想されます。

とは言っても、この、ヒトゲノム54カバレッジ分のSMRT Cellデータ、普通のサーバでは解析でき無さそうなことは予想できます。
ちなみに、アセンブリは、まだプロトタイプの次世代HGAp（FALCON+CA8.1）を使用

一番計算処理に負担がかかるところが、最初のPre-Assembly（エラー補正）ステップです。
PacBio社は、ここでGoogleの協力を要請。　Google Cloud Platformのスパコンシステムで、405,000 CPU hoursを使用することで、たった一日でシングルリード同士をアラインさせてPre-Assembly終了！
“普通の”　サーバでやったら何か月（？）かかるのかな。

このPre-Assemblyされたデータを使って、PacBioでCelera Assemblyし、3.25Gbのアセンブリ配列、4.38Mb のN50、44Mbの最大Contigを得ることができました。
この数字、Contig N50= 4.38Mb というのは、2013年6月14日現在のCHM1アセンブリでのContig N50= 144Kbと比べて桁違いに大きいです。

CHM1_1.1は、ショートリードを使って出したデータを、Reference Guided Assemblyした後、BAC by BACでつないでいったらしいです。　それでも144KbしかN50が出ていない！

昨年10月のアメリカ人類遺伝学会では、ヒトゲノム10xをPacBioで読んだ、というのが話題になりました。
その時、別のセッションで、hg20、GRCh38のリリースの話もありました。
これは新しいゲノムリファレンスの話で、今までのヒトゲノム参照配列のバージョンアップです。
PacBio 54xプロジェクトによって、新たに大きな構造変異などが見つかることでしょう。
今までリファレンスと呼ばれていた配列も、、大幅に変わってくるかもしれませんね。

個人ゲノムの幕開け（の幕開け？）、のような気がするのであります！

2014年2月14日金曜日

Blue Pippin - PacBioデータを最大限に生かす組み合わせ

Icahn Institute for Genomics and Multiscale Biology、Mount Sinai （NY）の研究者、Dr. Robert Sebraによると、Blue PippinはPacBioのロングリードアドバンテージを最大限に生かす、最高のマシンです。

Blue Pippinとは何か？

通常、ライブラリ作製をすると、狙ったサイズでシェアリングしても、短い長さのDNA断片も混ざってきてしまいます。
AMPureビーズ精製で途中何度も短いフラグメントを除く作業が入りますが、これは数～数十bp位の非常に短いフラグメントを除くためのもの。
例えば20kbを狙ってSMRT Bellを作ったときの、1kbのBellを取り除きたい時、AMPure濃度を変えて行うプロトコルもあるにはありますが、きっかり取り除くことは難しいそうです。

であれば、ライブラリをゲルに流して、大きなサイズだけを切り出し、という手が思いつくかもしれません。
そうです。
それを自動でやってくれるのがBlue Pippinです。　

カセットには5レーンあって、最大4サンプルまで一度に、あと1つのレーンはマーカーを一緒に電気泳動で流し、取りたいサイズのマーカーが来たら、電流の方向を変えて、取りたいサイズのサンプルを別の穴に入れる、
と、ざっくり言えばこんな感じです。

どのサイズで区切ったら良いのか、というのは、10kb、7kb、4kbと今は3種類あり、DNA量によって使えるサイズの限度があります。
7kbで区切る、という意味は、例えば作製した20kb SMRT Bellライブラリを電気泳動して、7kb以上の長さのSMRT Bellだけ抽出する、ということです。

そもそも、短いライブラリが混ざると何がいけないのか？
良く聞かれる質問です。

ライブラリが短いと、SMRT Cellのウェル、ZMWに入りやすいのです。
経験上、3kbより短いライブラリはそれ以上の長さのものよりもZMWに入りやすいようです。
MagBeadsとかで、長いライブラリを優先的にZMWの穴にロードする技術はあるのですが、それでも、20kbと3kbでは、圧倒的に3kbが穴に入りやすいらしい。
らしい、というのは実際の観察は不可能なので、データから予想するしかないからです。

そうするとどうなるか？

短いライブラリが競争で勝ってしまうと、出力するデータの、特にサブリードが短いものばかりとれてしまう。
サブリードというのは、SMRT Bell ライブラリの長さを超えることはありえないので、結局、長いライブラリを読んでいることにはならない。

このグラフは、Dr. Sebraが、同じMRSAサンプルを、Blue Pippinサイズセレクション有り無しで読んだ時のサブリードの分布です。
上が無し、下が有り　（SMRT Cellの数と目盛が違うのに注意）
注目すべきは、サブリードのN50 が、Blue Pippin無しのときが5,000bp、有りのときが12,500bpという点！
これは今までのデータと比較するとすごいことなんです。

今、PacBioを使って20kbライブラリをSequenceするときは、Blue Pippinによるサイズセレクションがほぼ必須になりつつあります。
彼らは今、NA12878のサンプルを、Blue Pippinサイズセレクションした後のライブラリを使って、読み続けています。
もう既に30ｘ以上、読んだそうです。

この、Sage Science社のテクニカルノートのPDF版が欲しい方は、いつものように、info_pac（アット）digital-biology.co.jp　までお気軽に。
誰にでも差し上げます。

ちなみに彼（Dr. Sebra、Bobbyという愛称で呼ばれています）は、写真ではわかりづらいですがすごい面白い人物です。
ユーモアがあり、ファッションにこだわり、日本が好きで、昔DJをやってたくらい音楽が好きで、かつ良い意味でのクレージー、そして紳士です。
今度日本に呼ぼうかなあと計画していますが、まだわかりません。　その時はお知らせします！

2014年2月13日木曜日

NextSeq500

「Sochi 2014」　ソチオリンピックで行われていた、日本対ロシアの女子カーリングの試合に見入ってしまいました。
カーリングって結構長丁場です。　氷上のチェスと言われるように、静かな知的スポーツです。
やったことは無いですが、昔、カナダに留学していた頃、良くアマチュアHockeyを見に行ってました。　そのメイン会場の隣、サブ会場で熱く繰り広げられていたのが、Curｌingでした。
それまでCurlingは、おじさんおばさんのスポーツ、っていう偏見を持っていたのですが、とんでもない！　きれいなお姉さんが真剣な顔してストーンを滑らせている姿は、思わず見入ってしまいました。
「見るとこ違うだろ！ストーンを見ろ！」という声が聞こえてきそうなので個人的なことはこれくらいにして、今日も某社の新型シークエンサーの話です。

イルミナ社の新型シークエンサー、NextSeq 500が日本でもお披露目されています。
HiSeqとMySeqの中間機種、「初めてのハイスループットデスクトップ型シーケンサー」（イルミナ社）ということらしいです。

デスクトップということで、横幅・奥行はMiSeqとほぼ同じ、高さはNextSeq500の方が高い。
以下の写真は、私の友達の友達（ほとんど他人？）がつくっているサイト（AllSeq）から拝借しました。

先ずはデザイン。　光沢感のある黒をベースにまとめていますね。
MiSeq Dxから、黒系にシフトしたのかな。　前は白が多かった気がします。
シークエンサーという感じがしないです。　私だけ？

そういえばシークエンサーって、黒＋白の組み合わせが多いですね。　個人的には真っ赤なシークエンサーも良いと思うんですが。

続いてフローセル

でかい！　超でかい！！
iPad mini か、ってくらいでかい！
ちなみに左がHiSeq2500のラピッドモードフローセル、右がMiSeqのフローセル
この特大NextSeq500フローセルは、4レーンあるように見えますが、実はつながっていて、実質1レーンだそうです。
複数サンプル流すには、バーコードが必要ということか。

こちらのブログ曰く、スループットで言ったらHiSeq2500の方が断然買いだそうです。
HiSeq2500がアップグレード後のスループット1000Gbで、NextSeq500が120Gb
スループットで言えばHiSeq2500の8分の1です。
NextSeq500は1人分のヒトゲノムを40xで読むことができる。しかし今の時代、誰がヒトゲノムを1検体ずつ読むのか？と言っています（さすがアメリカ人のブログ）。
1ランに29時間かかる。　コンスタントに流すにはスケジュールをちゃんと組まなきゃいけませんね。

HiSeq2500なら、アップグレード後なら、8検体ヒトゲノム40xを、6日で一気に読めるそうです。
また、アップグレード前でも、8レーン使えるハイスループットモードと、2レーン使えるラピッドモードがあり、2つのフローセルをそれぞれ別々のモードを設定できるらしいので組み合わせはたくさん。
というわけでHiSeq2500の方が、ミドルクラスからハイクラスまで使い勝手が広い、と言っています。

NextSeq500の特徴は、2つの蛍光を使って4塩基を検出するということ。
これにより光学系を節約しているとか。
2つの蛍光で4塩基を検出というのは、レッドでCを、グリーンでTを、その両方の蛍光でAを、蛍光無しのときGを検出するということらしいです。
ん？蛍光無しのときG？　

まだ実際のデータがたくさん出て来ていませんが、何らかのエラーバイアスがありそうな気もします。
とはいえ、デスクトップ型で、このスループットを出してきたのはすごい。
将来が楽しみです。