2015年3月4日水曜日

AGBTレポート3:Human Genome Assemblyには何時間かかる?

しつこいようですが、私はAGBT行っていません(笑)。

PacBioのランチョンセミナーにて、ヒトゲノムのアセンブリがいくつか発表されました。

  1. J. Craig Venter博士のゲノム
  2. (おととい書いた)Breast Cancer細胞株のゲノム
  3. 韓国人リファレンスゲノム by Macrogen社

そのうち、Venter氏のゲノムと、SK-BR-3株のゲノムのアセンブリは、DNAnexus社のクラウド計算機を使うことで、それぞれたった2日で終わったそうです!


Venterゲノムを例に挙げると、PacBioのP6C4試薬で読んだ、平均リード長14kb、N50リード長19kbの、ロングリードを1790万本、総塩基数266Gb(85x)をインプットデータとして用意。
DNAnexus上のクラウドサーバでFALCONを流し、ContigのN50はなんと11.5Mb !! 全体の塩基のうち1Mb以上の長さのContigが97.8% !!
これら計算にかった時間は48時間、計算ピーク時のCPUコア数は14,000

クラウドサーバでヒトゲノムのアセンブリ、それも最高に素晴らしい(長い)Contigが2日で出てくる時代、ですか・・・。

気になるお値段ですが、DNAnexusのサイトには、1回5千ドルから1万ドル、と書いてありました。 そんなに高くない?

レジストしてログインすれば、データ解析のパイプラインを見ることができます。



うーん、やってみたい。
Daligner→Falcon→Quiverの流れ
でもポケットマネーじゃ無理~。

このようなクラウド環境ができるのは、サーバを用意できない、用意したくない、ユーザにとって良いことでしょう。
臨床データをバンバン読むようなところなら、クラウドに上げるのはちょっと抵抗あるでしょう。
でも、PacBioでヒトゲノムアセンブリするのが目的ならまだまだ高価なプロジェクト。
細胞株や、リファレンスゲノムのようなサンプルならクラウドでささっとアセンブルするのも良いのかも。


Lin, Mike (2015): Comparing de novo assemblies of J. Craig Venter's genome. figshare.
http://dx.doi.org/10.6084/m9.figshare.1319564
Retrieved 07:42, Mar 03, 2015 (GMT)

PacBio Onlyのゲノムアセンブリは、GRCh38やHuRef (2007) と比べて全く見劣りしない。
結構驚いたのですが、どうですか?
かたや数十億ドル国際プロジェクト、そして企業の威信を賭けた大プロジェクト。
それが今や、たったひとつの機械で3ヶ月程度のシークエンス時間と、2日間のアセンブリ。

アセンブリ、ですからね。
リシークエンスじゃありませんよ。



0 件のコメント:

コメントを投稿