- Dovetail Genomics社のChicagoメソッドとHiC
- Phase Genomics社のHiC
- NRGene社のDeNovoMAGIC
Dovetailについては、以前ここでも紹介しましたね。
Dovetailは、Chicagoという、In vitroで超長鎖ライブラリを作るテクノロジーが特徴です。
これにより、100kbp、200kbpといったゲノム配列の両端を読んで、Contig配列の向きと並びをそろえ、スキャフォルドします。
In vivoで超長鎖ライブラリを作るテクノロジーには、HiCというものがあり、これは細胞の中で染色体そのものをライブラリ作製の材料に使うので、Mbp単位の配列の両端を読んでContigをスキャフォルドすることができます。
つまり、ChicagoとHiCはスキャフォルドできる長さと精度が違う。
Chicagoの方がHiCに比べて、スキャフォルド長は短いが精度が高い。
きちんとしたガイドラインがあるわけではないですが、
- ContigのN50が数十kbであればChicagoでスキャフォルド
- ContigあるいはScaffoldのN50が数Mbpあれば、HiCでスキャフォルドすれば良い
のではないでしょうか?
Dovetail Chicago の例としてコペンハーゲン大学のダイオオイカゲノムの話がありました。
Cephalopod(頭足類)の動物は意外と種類が多くて、800種ぐらいあるそうですね。
マッコウクジラと戦った形跡(鯨に吸盤がついたままの化石)は残っているそうで。
さて、そんなゲノムを以下のシーケンサーで読んだ
- イルミナ x72
- 454 x0.1
- Moleculo x1.4
- Dovetail Chicago x40
- PacBio x10
アセンブリの結果はこちら
イルミナ -> 100万本のContig、N50=4kb、最大119kb
+454 -> 210,624本Contig、まだまだ短いN50
+Chicago -> 7,376本のScaffold、N50=4.9Mb、最大33.9Mb
+PacBio -> 7,276本のScaffold、N50=5.5Mb、最大38.3Mb
PacBioを加えてもあまり長くならなかったのは、PacBioのデータはここでは最後に使われたからです。
つまり、Chicagoである程度つながったScaffoldのギャップフィリングに10掛けのPacBioデータが使われたから。
これはXenopusの発表でもあったのですが、Dovetailで作ったScaffoldをPacBioの10掛けデータでギャップフィリング。こういう使い方もあるんだー、って少し目からうろこ。
だって順序が逆ですから。
今まで私が普通に思っていたのは、PacBioでまずx50以上読んで、アセンブルして、長いContigを作った後にDovetailでスキャフォルド、という流れでした。
でもコストの問題で、なかなか大型ゲノムをPacBioだけでアセンブルできない、という場合もありますよね。
さて、これ以上長い、染色体レベルのScaffoldを作るには、HiCが向いています。
HiCの技術は、DovetailでもPhase Genomicsでも受託メニューにあります。
USDAのBen Rosenさんのヤギゲノムアセンブリの発表では、カバレッジは忘れましたが、
PacBioだけ -> 3,074本のContig、N50=3.8Mb
+HiC -> 31本のScaffold、N50=87Mb
また、森林ゲノムセッションの、Manuka (マヌカ、またはギョユウバイ?という植物)ゲノムアセンブリの発表でも、ショートリードとHiCが使われていました。Dr. David Chagneらは、この300Mbの二倍体植物をまずはショートリードで読み、
1,278本のScaffold、N50=3.8kb、全体サイズ471Mb(これには植物ライクな配列も含むらしい)
これにPhaseのHiCを加えると、
11本のPseudo-chromosome、N50=26.3Mb、全体サイズは295Mb
連鎖地図と比べても82%のConcordanceを持っていたらしい。
ちなみにこのマヌカという植物からとれた蜂蜜は高級品らしいです!
プレゼントにどうでしょう?
NRGeneの説明スペースが無くなってしまいました。これは次に。
DovetailのChicago、HiCについては、2月7日の「PacBioセミナー@秋葉原」で少しご紹介しますね。
では。
0 件のコメント:
コメントを投稿