2014年9月15日月曜日

ゲノムのジグソーパズル

http://www.princeton.edu/main/news/archive/S41/01/85G88/

オキシトリカ属、って知ってますか?
Oxytricha trifallax
Ciliated Protozoa
なんて、原生生物の専門家なら常識なんでしょうが、私は初めて知りました。
ゲノム的にすごい生物なんです。

Chen et al., (2014). Cell 158, 1187-1198.

まず、この単細胞生物には、他のCiliatesの仲間と同じく核が2つあるんですね。
小さい核(MICronucleus)と大きい核(MACronucleus)
通称、MICとMAC   なんか、名前がかわいい

MICはGermlineの染色体、MACはSomaticの染色体があります。
Sexual Conjugation(何て訳すのかな?)の後、MACは消えて無くなり、新しいMACが、MICのひとつから作られるそうです。
その、MICから新しいMACが作られる過程で、想像も付かないことが、ゲノムレベルで起こっているのです。
Chen et al.
MICの染色体には、Macronuclear Destined Sequences (MDS) という配列と、Internal Eliminated Sequences (IES) という配列(それぞれ、Exon、Intronに考えが似ている)があります。
しかし、MICの染色体上では、これらMDSが、一見ランダムに位置している。
あるものは順番が異なり、あるものは向きが逆で、というように。
MICからMACが出来る際、MIC上のMDS配列はおよそ225,000ものフラグメントにバラバラにされ、IES配列が分解されたあと、MDSフラグメントは、16,000ほどの配列に順序良く並び替えられるそうです。

つまり一旦、自分のゲノムをバラバラにして、再構築する!
そして再構築にかかる時間はたったの60時間

再構築された後の16,000の配列は、Nanochromosonesと呼ばれるそうで、平均3.2kb、ひとつひとつがテロメア配列を持っている。
つまりMACの染色体は16,000本、1遺伝子1染色体?

なんともSFチックな、想像も付かない話なんですが、このMIC染色体を読んで、ゲノム再構築の謎に迫ったのが、上記の論文です。
著者の1人、Robert P. Sebra氏には、今年5月の「PacBio現場の会@秋葉原」のスピーカーでもあったので、知っているひともいるでしょう。 
早速メールで、「論文おめでとう!」
もう察しは付くかもしれませんが、MIC染色体を読むのにPacBioが使われています。


ここからはちょっと詳しくマテメソ話・・・

論文によると、彼らは PacBioシークエンス用に MIC-enriched DNAを、5μg 用意しました。
G-tubeで10kから20kを狙って断片化し、1.9μgのDNAをライブラリ調整に。
Blue Pippinで7kbカットオフ、18%の回収率。
P5-C3 で読んで、15xのデータを取得。
(MICのゲノムサイズは推定490~500Mb)

一緒にMICをIllumina HiSeq2000でも読んで、110xのデータを取得。
先にHiSeqデータをアセンブリして、145,639本のContig(N50=7.1kb)を得。
PacBioのリードは、MACゲノムデータベース(既にあるらしい)と、今回読んで得たIllumina ContigsにBLASTN検索して、どっちに分かれるか判別。
Illumina Contigsに貼りついたほうが、MACのコンタミが無い、MICゲノム由来のPacBio配列、というわけ。
次に、MIC由来候補のPacBio配列から、絞られた3kb以上の配列を、Illumina Contigs配列を使って、EC Toolsでエラー補正、そしてCelera Assembler

結果、25,720本のContigs、N50=27,807pb、最長381kbp、アセンブリサイズ496.2Mbpを得た。
15xだと、これ以上Contigs数を減らすのは難しいのか。

これにBACライブラリも読んで、精度をあげている。BACのシークエンスにもPacBioをもちろん使用!


で、このMIC Contigsで、MAC Contigsの塩基、98.9 %をカバーできた。
そして、18,405本のテロメア配列ありのMAC Contigsのうち、98.3%は、少なくとも90%以上MIC Contigsをカバー、88.1%はすくなくとも90%以上MICのsingle Contigをカバーできた。
ということで、MICとMACのゲノムが、どんな風にリアレンジメントされるのか、スクランブルされるのか、その仕組みを解析できたのです。

その仕組みは、とても複雑でここでは書ききれないほど。(本当は説明できる自信が無いから?)

3,500以上のスクランブル(「かき混ぜる」という意味。スクランブルエッグという言葉があるでしょ。)されている遺伝子とされていない遺伝子は長さに違いがあることがわかりました
また、800ほどの遺伝子はMICゲノムから発現され、それがゲノムリアレンジメント、スクランブルに重要な働きをしているらしいこともわかりました。


この研究が、PacBio無しではなり得なかった?理由は、MICのゲノムの複雑さにあります。
Illuminaリードでアセンブルしても、ゲノムにはリピートが多いため、Contigの総塩基数は392.3Mb と、想定ゲノムサイズより短くアセンブリされてしまう。
PacBioを使うことで初めて、496.2Mbを得た。
およそ20%の情報が新たに得られたことになる!


さて、この生物、池に住んでいる単細胞だからって、ゲノムは決して単純では無いことを教えてくれる。
ゲノムリアレンジメント、のモデル生物にもなるくらい。
そして、こんな複雑なゲノム構造を持つ生物は、他に見つかっていないらしい。
今はやりの、「ゲノム編集」と同じく、ゲノムをバラバラにしてもう一回アセンブルし直すという技術は、もし解明されたら素晴らしい技術革新になる可能性を感じた。

是非、フォローしたい研究!



0 件のコメント:

コメントを投稿