AGBTに参加された方はこのニュースをフロリダで聞いたのかもしれません。 (私は日本でしたが)
PacBioは昨年、バクテリアサイズのゲノムアセンブリにおいては、ライバルはいない! と言っても過言ではないほど、確固たる地位をつくりました。
チャレンジは少しずつ大きなゲノムサイズに移り、ホウレンソウゲノム、Arabidopsisゲノム、Drosophilaゲノムも、PacBioだけで読める、アセンブリできる、というレベルになりました。
そして、今、まさに時代はヒトゲノムをPacBioだけでアセンブリしようというステージに突入!
以前、彼らはここのブログでヒトゲノム10x読んで、それを公開したことを報告しましたが、今回はこれをさらに44x分読み足したということです。
これにより、NIHのAlternate reference assemblyはより精度が上がることが予想されます。
とは言っても、この、ヒトゲノム54カバレッジ分のSMRT Cellデータ、普通のサーバでは解析でき無さそうなことは予想できます。
ちなみに、アセンブリは、まだプロトタイプの次世代HGAp(FALCON+CA8.1)を使用
一番計算処理に負担がかかるところが、最初のPre-Assembly(エラー補正)ステップです。
PacBio社は、ここでGoogleの協力を要請。 Google Cloud Platformのスパコンシステムで、405,000 CPU hoursを使用することで、たった一日でシングルリード同士をアラインさせてPre-Assembly終了!
“普通の” サーバでやったら何か月(?)かかるのかな。
このPre-Assemblyされたデータを使って、PacBioでCelera Assemblyし、3.25Gbのアセンブリ配列、4.38Mb のN50、44Mbの最大Contigを得ることができました。
この数字、Contig N50= 4.38Mb というのは、2013年6月14日現在のCHM1アセンブリでのContig N50= 144Kbと比べて桁違いに大きいです。
昨年10月のアメリカ人類遺伝学会では、ヒトゲノム10xをPacBioで読んだ、というのが話題になりました。
その時、別のセッションで、hg20、GRCh38のリリースの話もありました。
これは新しいゲノムリファレンスの話で、今までのヒトゲノム参照配列のバージョンアップです。
PacBio 54xプロジェクトによって、新たに大きな構造変異などが見つかることでしょう。
今までリファレンスと呼ばれていた配列も、、大幅に変わってくるかもしれませんね。
個人ゲノムの幕開け(の幕開け?)、のような気がするのであります!