2016年10月7日金曜日

PacBioでヒトゲノムアセンブリ 韓国人ゲノムがNatureに

昨年のNGS現場の会でも話した、PacBioでヒトゲノムを読んでアセンブリした件
ここのブログでも度々登場した、韓国でのリファレンスゲノムプロジェクトが、ついにNatureにPublishされました!

このことはGenome Webにも記事になっています。では引用しつつ説明しますね

このプロジェクトはソウル大の教授でもあるマクロジェンの会長、Jeong-Sun Seo氏を筆頭に、数年前から行われてきました。
使われたプラットフォームは、PacBio RSII、BioNano Irys、Illumina HiSeq、BAC clone sequencing、そして10X Genomics GemCode
つまり、ロングリード、フィジカルマッピング、ショートリード、サンガー、リンクシークエンスなどなどを総動員して行なわれた、一大プロジェクト。

そもそもの目的は、今のリファレンスゲノムはヨーロッパ人由来のものであり、アジア人には適していないのでは無いか? ということで、アジア人のリファレンスゲノムを作ろう!ということでした。
アジア人といっても広いので、マクロジェンとしては、先ずは韓国人だろうと。
AK1ゲノムと呼ばれています。

余談ですが我が国では、東北メディカルメガバンク機構が、PacBio RSIIのロングリードを使って日本人ゲノムをアセンブリ、その結果を韓国チームより一足早く、公開しています


さて、韓国人ゲノムの話に戻ります
メインに使った機械はもちろんPacBio RSII で、なんと380セルを使用し、101xのカバレッジ量の塩基を出力しました
PacBioのデータだけを使ってFalconアセンブリした結果は、Contig数が 3,128本、N50は 17.9 Mb !
これだけでも十分すごいです。
このContigデータを Irys でscaffold して、2,832本のScaffold、N50 は 44.8 Mb !!
さらに、HiSeq X Ten のデータとBAC のSangerシークエンスデータ、10X のリンカー配列を使用して、ハプロタイプフェージングを求めたらしい

もっとも長いScaffoldはなんと113Mbで、5番染色体を完全にカバーしているとのこと。
さらに8本の染色体アームはそれぞれ1本のScaffoldでカバーされていた。

また、現在リファレンスとして良く使用されているGRCh38ゲノム配列にもGapがたくさんあることがわかっていますが、これらのうち65個のGapは完全にふさぎ、また72個のGapを短くすることができたそうです。こういったGapにはTandemリピートが多く、ショートリードではふさぐことが不可能であった。

Seo氏曰く、このプロジェクトにかかったコストは、170万ドル
決して安いとはいえませんが、リファレンスゲノムを一から決める、という大きなプロジェクトにしては、どうでしょう。臨床に使え得る、プラチナゲノムを目指すからには、これくらいの規模は必要なのでしょうかね。


このAK1アセンブリは、Asian Genome Projectの第1フェーズでして、第2フェーズは1万人のコホートシークエンスです。
Seo氏曰く、既に3000人の日本人、3000人の韓国人、1000人のモンゴル人、のケースコントロールをシークエンスしていて、今は中国人を追加しているそうです。
これはさすがにショートリードでしょうけど。


さらに100Kプロジェクトというものもあるそうで、どんどんシークエンスが大規模になってきていますね。
マッピングや変異解析が大変だって?
大丈夫、今の時代は問題無いです。
DragenというFPGA使った超高速サーバ、ご存知ですね?
知らないというひとはとりあえずこちら
マクロジェン社も持っている

このサーバ、20分で30xのイルミナデータのマッピングー変異コールができるんです。

話がずれちゃいましたね。 はい、
PacBioでヒトゲノムデノボアセンブリの話でした


0 件のコメント:

コメントを投稿