2013年11月28日木曜日

アーバスキュラー菌根ゲノムからわかったこと

 
「共生」という言葉は、高校の生物で初めて耳にしたと思います。
私たちの細胞には、ミトコンドリアがあって、これが独自のゲノムを持っていて、エネルギーを作り出している云々。
その時素直に、「へえー、生物の中にも生物が住んでいるんだあ」と驚いた記憶があります。
それから腸の中には腸内細菌が住んでいて、やつらが何をしているのかはわからないが、定期的にヤクルト飲んでいれば健康でいられると、そのままTVコマーシャルを信じていた学生時代。

大学では、真菌(Fungi)という生き物の不思議さに大変驚きました。
核がたくさんあるやつや、HaploidとDiploidが人生の半々くらいなやつ。
酒造や発酵に必須で、古くから人類の文化と切っても切れない関係のやつ。
はたまた抗生物質を作ってくれて人類を病気から救ってくれたやつ。
しかし現代ではカビキラーによって、見つけ次第排除されるかわいそうな運命になっているやつ。

そして共生

植物の根っこに共生するアーバスキュラー菌根(Arbuscular mycorrhiza fungus)という種類があります。
その一種である、Rhizophagus irregularis のゲノムが、国際チームによって読まれました。

この生物、155MbのゲノムサイズでHaploid
ニンジンの根っこに共生した株から取り出したゲノムを、Sanger、454、Illumina、そしてわれらがPacBioで読んだそうです。
IlluminaはHiSeq2000を使用し、シングルエンド100bpを37,094,828本出力。
PacBioはXL-C2ケミストリーで、3.5μgのゲノムからライブラリを作成、SMRT Cellを9つ使用し、120分Movieでラン。
出力結果は、Max22kb、平均3kbのリードが139,080本。総塩基数 766 Mbp (デフォルトクオリティフィルタリング後の値)

少ないとお思いでしょうが、これは150Kアップグレードする前の装置で読んだ数字です。
その頃は、1セルあたりの出力が100 Mbp 弱だった。

ま、とにかく、9セル使って120分で読んで、155 Mbp ゲノムのおよそ5xはカバーできたわけです。
今なら、セル数は半分の4つくらいでこれくらい出ますかね。

アセンブリの方法は、先ず、Sanger、454、Illuminaのデータをまとめて、一度フィルターにかけます。
この真菌はATリッチなので、GCが45%以上あるリードはバクテリア由来のコンタミらしい、として、別途分けておくフィルターです。
残ったリードが約3000万本、3,781 Mbp
これを、CLC-Bio Genomics WorkBench のde novo hybrid assembly にかけ、91 Mbp、28,371本のScaffold(N50 = 4.19 kb)を得たそうです。

さらに、このScaffoldと、PacBioの5x分のロングリードを混ぜて、PacBioのAHA(A Hybrid Assembler)でさらにScaffoldingし、101 Mb、12,421本のScaffold(N50 = 15.16 kb)を得ています。

それでも12,000本、N50 が15 kbpかあ・・・

今なら、20kbライブラリも可能だし、180 Movie もあるし、新酵素もあるし、解析ではPB Jelly 2 という別のPac用Scaffoldツールもあるので、それらを試すともっとアセンブリも改善するでしょうね。
(もしかして現在進行中かも)

Tisserant et al. "The genome of an arbuscular mycorrhizal fungus provides insights into the oldest plant symbiosis" PNAS, Suppl. Fig S1 より
 
PacBioはゲノムアセンブリにしか使われていませんが、ショートリードのアセンブリ結果から、遺伝子配列の解析もされています。
その結果、 植物に共生する真菌らしく、、彼らの遺伝子セットからは、細胞壁を消化する代謝酵素遺伝子が失われていたり、リンの吸収に役割のある遺伝子がたくさん含まれていたり、そのようなことがわかったそうです。
 
 

2013年11月26日火曜日

ISBA 2013 一分子シークエンサーとナノポアテクノロジー

 
 
先週、DNA一分子のシークエンス、ナノポアテクノロジーに関しての国際シンポジウムが京都で行われました。
私もちょうど前日まで関西方面に来ていたので、京都、三十三間堂となりのHyattホテルの会場にお邪魔しました。
京都は何度も来ているんですが、三十三間堂側は初めて。
 
このシンポジウムに来た理由は、PacBioの創設者の一人、Steve Turner氏の講演があるから&私の友人も講演するからです。
 
Steveとは半年ぶりに会いました。
彼の話は、ZMWの考案にいたる歴史、つまり最初はDNAのシークエンスではなく、ポリメラーゼの動きについて研究していたところ、「副産物」として、シークエンサーのアイデアが思いついた、という話、から始まりました。
彼の専門は物理なので、ZMWについては思い入れがあるのでしょう。
それから1分子シークエンサーとして、機械を完成させ、コマーシャルラインに乗せ、超ロングリードというユニークな分野で優位を保っていること。
さらにロングリードを使ったアプリケーションを紹介していました。
 
彼のプレゼンは、内容もさることながら、その発表のスタイルが上手です。
喋り方がゆっくりで、発音もきれい。 ジェスチャーも自然で無駄な動きが無い。
TEDのプレゼンターもそうですが、間の取り方も上手です。
Steveは、私が見習いたいプレゼンターの一人です。
 
さて、ほかの参加者の話は、というと、生物系から情報処理系、完全なナノ物理系、とテーマが幅広かったです。
正直、ナノ物理系の話は30%くらいしか理解できませんでしたが、DNA分子を穴(ポア)に入れて、その分子が通る速度をコントロールすることがとても難しいということはわかりました。
穴の直径、素材、コーティング材、電圧、その他もろもろ、研究者のみなさんは相当苦労されているんですね。
単純にポアに通して・・・という話にはならず、通っても検出限界を超えるスピードで通り過ぎてしまっては意味が無い。
全ての分子が、等速度で、検出範囲内のスピードでポアを通過して欲しい。
 
今はまだR&Dのレベルですが、いずれマーケットに出てくる時代がくるかもしれません。
その時はどんなナノポアテクノロジーが残っているのか、興味があります。
 
 

2013年11月15日金曜日

PacBio スライドショー ASHGとUGM、最近のCSHL

人間の体温は普段と1,2度変わっただけで、体調がすごく悪くなるんですね。
先日、熱出しました。(前回はシンガポール帰国直後)
PacBioのシークエンサーも、内部の温度を常に監視していて、ちょっと異常があると警告メッセージを出すんですが、人間の体も具合が悪くなる前に軽い警告サインを出して欲しい。
もしかしたら警告を出しているのに、偶然その時、お酒を飲んだりしていて、警告を無視しているのかもしれませんね。
とまあ、言い訳ですが。

最近、PacBio社が学会やセミナーのスライドショーを立て続けに公開しているので、これは是非皆さんに紹介したいと思いました。興味のある方はご覧ください。

9月、PacBioユーザーグループミーティング(UGM)
10月、アメリカ人類遺伝学会(ASHG)
11月、Cold Spring Harbor Laboratory, Genome Informatics(CSHL)
での発表スライドです。
UGMは、一部、非公開のスライドもあります。これは仕方ない。

まずはUGM こちらは以前ブログでも紹介しましたがようやく、PacBioのブログでも、その様子が公開されました。
小さな英語文字で少し見づらいかもしれませんが、ところどころに青色でリンクがあり、そこからプレゼンの資料がダウンロードできます。
個人的にはRNA-Seqが好きです。全長cDNAシークエンスというもので、これは最近PacBioが力をいれており、間違いなく来年、大きなブレークスルーがあると思います。
バクテリアデノボアセンブリのHGAPのように。

続いてASHG 
PacBioのワークショップがありました。そのスピーカーのビデオが公開されています。
人類遺伝学会ですので、テーマもヒトへの応用なので、普段デノボアセンブリの話ばかりで飽きてきたひとにはもってこいでしょう。
ちなみに2番目のスピーカー(Dr. Eicher)は、Pacで10X ヒトゲノム読んで公開した方です。

最後にCSHL Genome Informatics
これは私は参加していないので実際聞いていないのですが、HGAPの開発者、Jason ChinによるDiploid Assemblyの発表です。

今のアセンブラーでは二倍体に対応していません。PacBioのロングリードをもってしても、現在のCelera Assemblerは二倍体を考慮したアセンブリはできないので、PacBioではそれに代わるアルゴリズムの開発をしています。
インフォマティシャンなら要チェック! 来年くらいに論文になるでしょうか。
これも間違いなく来年の大きなブレークスルーになるでしょう。
その前に本人からこのプレゼン内容を聞いておきます。