2018年1月26日金曜日

32ギガベースの巨大ゲノムを、たった32xのPacBioデータでアセンブリしたって?

最近寒いですねー。東京でも雪、連日の冬日。
このまま氷河期に入るんじゃないか?
2月になっても寒い日が続くのでしょうか。
ビールが好きな私ですが、こんな日は芋焼酎お湯割り、がいい!

そんな中、驚きの32Gbゲノムアセンブリ論文がNatureから出されました。
The axolotl genome and the evolution of key tissue formation regulators
サラマンダー、またはメキシカンサンショウウオ、またの名をAxolotl
今の40代以上のひとならアホロートル、という名前より、ウーパールーパーといったほうがわかるかな?

東京池袋のサンシャイン水族館で一時大人気だったウーパールーパー
こいつ、小さくてかわいいわりにゲノムサイズが32GBもあるそうです!
またこいつは、失った手足を自分で再生することができる。その辺が科学者に注目されてきたのです。
昭和のバブル時代、なぜか大ブームになった、らしい
私もかすかに記憶あります

Dr. Gene Myersらのグループは、PacBioとショートリード、BioNanoを組み合わせ、さらに新しいゲノムアセンブラー「MARVEL」を作り、この巨大ゲノム生物のアセンブリに挑戦しています。
RSIIを使いなんと2,000個のSMRT Cellから32カバレッジのロングリードを取得。でも32カバレッジでアセンブリなんてできるのでしょうか?
そこはさすがGene Myersです。MARVELアセンブラーはHGAPのように最初に生リードのエラーを補正するのではなく、エラーっぽい箇所を見つけては「つぎはぎ」するらしいです。そうして99%程度の精度にした後でアセンブリに持ち込む。
詳細はSupplementにアルゴリズムが説明されています。今度しらふの時にしっかり読んでみることにしよう。

最初にPacBioデータだけで作ったアセンブリのコンティグN50は218kb
次に7カバレッジのイルミナデータでエラー補正して、最後にBioNanoデータでスキャフォルディングしてN50=3Mbを達成しています。

アセンブリした配列は65%程度がリピート、特にLong Terminal Repeat(LTR)がこの巨大ゲノムに多く見られたそうです。
このアセンブリ配列は、四肢の再生を制御し成長をつかさどるのに重要な役割を果たすHoxA遺伝子群や、その他重要遺伝子・遺伝子ファミリーの機能解明に役立つかもしれません。

今回のゲノムアセンブリ、32Gbゲノムですが、32カバレッジだけ(といっても結構な量を読んでいますけれど)でコンティグN50が217kbというのはなかなかすごいです。
BioNanoを使ってスキャフォルドしていますが、個人的にはDovetail ChicagoやHi-Cを加えれば恐らく、ChicagoでスキャフォルドN50が数Mb、Hi-Cで数十Mbは可能だったのでは?と思います。
巨大ゲノムはいまだにチャレンジングかつお金がかかる・・・ と思った論文でした。

Nowoshilow et al., 上記論文より
他の巨大ゲノムアセンブリとの比較
左が今回のアホロートルゲノムアセンブリ



0 件のコメント:

コメントを投稿