2016年6月27日月曜日

Mini-chromosomeで400Mbも? ジカウイルスの宿主株ゲノム公開

VectorBase Aag2

ジカウイルスやデングウイルスなどの宿主といえば?  答え  Aedes aegypti 
これを聞いて「ネッタイシマカ」とわかるあなたは、専門家です!

この Aedes aegypti 株のゲノム配列のアップデート版が、先日公開されました。
UC San Francisco とPacBioの共同で、この株Aag2を、~58xショットガンシークエンスし、Falconでアセンブリ(これはFalcon 開発者のDr. Jason Chinが、先月自慢げに話してくれたのを覚えています。彼はとってもいい奴です) 。
アセンブリの後は、Quiverを使って生リードを再度Contigにマッピングして、精度を高めたコンセンサス配列を作った。

アセンブルの結果は 3,752本のContig、トータルで 1.72 Gb
Contig N50 = 1.42 Mb

染色体のサイズはBroad Institute とTIGRのグループが別の株でアセンブリした、Liverpoolアセンブリより、400Mb以上も大きかった模様で、これはAag2株の、mini-chromosome の獲得によるものかも知れない、と書いてあります。

私はむしろ、株によって400Mb もゲノムサイズが違うということに驚いているのですが、その理由がmini-chromosomeの獲得、というのにも驚いています。
昆虫の世界、あるいは細胞株の世界では、400Mbぶんものゲノムがmini-chromosome
によってホストに獲得されることって、普通にあることなんでしょうか?
植物ではよくあることかもしれませんが、昆虫でも?
もし本当なら驚きです。

データが公開されたことで、この400Mbがどこから来たものかが、そのうちはっきりされるでしょう。 楽しみです。


(このニュースは、PacBioブログでも書かれています)


mini-chromosomeとは、もともとの染色体から、Origin of Replication、Centromeres、Telomeres、それと遺伝情報の一部、がセットになって分離したもの。
それ自体が染色体のように、細胞内で他の染色体と一緒に分裂して増えていくもの。
です。

2016年6月26日日曜日

第4回アジア・ユーザーミーティング



今年も6月8日~10日まで、シンガポールのGrand Copthorne Waterfront Hotelにて、PAG Asiaが終わったタイミングでPacBio Asiaユーザグループミーティングが開催されました。

毎年参加者が増えて、今回は160人余り。
日本からも8名ほどが参加されました。


今回は第4回ですが、第1回から参加していると、明らかに発表の内容が変わってきているのがわかります。
例えば第1回は、これからどんなことをやっていくか、といったビジョンの紹介と、RSを使って読んでみたデータの紹介がメイン。
まだこれから、という感じはしましたが、少人数のアットホームなユーザーミーティングでした。

第2回からは、いよいよ本格的なアセンブリ結果の発表がメインになってきます。
とはいってもアジアはまだバクテリアゲノムのプロジェクトが多く、大量にセルを流して大型ゲノムに挑戦というのはこれからのような感じでした。

第3回になると、アジアからも真核生物はじめ、大型ゲノムのデノボアセンブリの発表が増えてきます。
サンプルプレップやデータ解析のスポンサー企業からの発表も目立ち始めます。

そして今回の第4回、バクテリアからウイルス、HLA、植物や魚類、哺乳類ゲノムまで、幅広いテーマの発表が相次ぎました。

「PacBioで読んでアセンブルをすると、ショートリードで行なうよりも圧倒的に長い配列(Contig配列)が得られる」
というのは毎度毎度で聞き飽きたかと思いますが、PacBioのユーザミーティングなので、こういう話は良く出てきます。
でも今回はいままでよりちょっと変わってきたかなあ、という印象を持ちました。

大型ゲノムのアセンブリの場合、例えば3Gb程度の哺乳類を、PacBio で読んたとします。
平均リード長=12kb、サブリードでは125x のデータが得られた。
これをCanuまたはFalconでアセンブリしても、Contig数はそれぞれ3160本、4912本。
Contig N50 は、9.6 Mbp

これだけでも十分すごいんですが、数千本のContigをもっと減らすには、やっぱりScaffolding技術が必要になってくると思います。
前回紹介した、Dovetail社の技術も、こういうときにつかわれていました。
Scaffoldは、10X Genomics のところでも書きましたが、Contig(連続配列)ではありません。
Contigの並びをそろえる、順番を決める、というような目的に使われます。
Dovetail以外にも、BioNanoのPhysical Mappingも使われていました。
そんなふうに、大型ゲノムのアセンブリプロジェクトは、

  1. PacBioで50x以上読んでFalconアセンブリして、超長いContigを作る
  2. DovetailやBioNanoでScaffoldingする
というのが、(今回のユーザーミーティングを見た限りでは)、今後デフォルトになる気がしました。



ところで今年のシンガポールは、例年より蒸し暑かった。
特にユーザーミーティング期間中は夜も暑くて、日本人の方にはこたえたでしょう。
でも、金曜の夜は涼しくなったんですよ。1日ずれてくれたら良かったのに!

2016年6月21日火曜日

Dovetail - de novo Assembly 専門のテクノロジー(2)



カリフォルニア州サンタクルーズ市は、「サーフィン発祥の地」とも言われているそうです。僕はサーフィンしませんけど。
海岸線を通るHW1号線を北上すると、ザ・カリフォルニア、って感じの素晴らしい景色が見えてきます。

天気がいいとドライブに最高!
そのまま北上するとサンフランシスコに行くことができますよ。

ああ、そうそうDovetail社です。
看板は控えめな感じ
いかにもベンチャー
サンタクルーズの市内、大きな倉庫みたいな建物にこの会社はあります。
ベンチャーらしい雰囲気の、活気のある会社です。
彼らの提供するサービスは、ずばり、「デノボアセンブリのトータル受託」
ゲノム抽出からアセンブリまで

顧客はDNAではなく、組織を送ります。
100 kb以上の、高分子DNAを抽出する技術が必要だからです。
輸送中にDNAが壊れて短くなってしまうことを防ぐのも理由らしいです。

DNAを抽出後は、2つのワークフローに分かれます。
  1. HiSeqを使ったショットガンシークエンス→アセンブリ
  2. Chicagoライブラリ作成→シークエンス(HiSeq)

1のアセンブリ結果のContigを、2のシークエンスでScaffoldして、最終的にまとまったScaffold 配列を顧客に返却
という流れ。
Dovetail社のウェブサイトから

彼らのChicagoライブラリ原理をまとめました。
(詳しくは彼らのウェブサイトまたは論文
Putnam et al.,
Chromosome-scale shotgun assembly using an in vitro method for long-range linkage
Genome Res. 2016. 26: 342-350を参照)

Dovetail 社のウェブサイトから
  • まず最初に100 kb ~ 150 kb 以上の長いDNAフラグメントを抽出する(A)
  • ヒストンを追加し反応を与え、Naked DNAをクロマチン構造に再構成させる(普通クロマチン構造をとらないバクテリアゲノムでも、強制的にこの形にすることができる)(B)
  • 再構成させたクロマチンを、ヒストン同士、共有結合によってクロスリンクさせる。これにより、ゲノムDNAが凝集され、距離が縮まる。例えば、上図の1と2は、最初は50kb以上離れた位置に配列だったが、クロスリンクによって近くの位置に来ている(C)
  • クロスリンクされたクロマチンのDNAは、制限酵素によって切られ、sticky-endedのフラグメントができる。DNAはバラバラになったように見えるが、ヒストンのクロスリンクにより、もともとのフラグメント由来のDNAは、この時点でも凝集されていてる(D)
  • 新しく作られたsticky-endedの末端は酵素反応でblunt-endにされ、その際、ビオチンがついたヌクレオチドでしるしがつけられる(E)
  • DNA Ligase反応で、blunt-ended 末端同士が結合される。たいていの場合、これまでつながっていたフラグメントではなく、遠く離れたフラグメント同士が結合する(ここは確立論)ので、例えば、上記、1と2が結合することもあり得る(F)
  • 次に、クロマチン構造は解除され、DNAが抽出される。そしてフラグメントの真ん中に無いビオチンは取り除かれる。つまり、Fのステップでライゲーションされなかったフラグメントのビオチンは除去される(G)
  • 最後に、ストレプトアビジンビーズで、ビオチンが付加しているDNAだけ、精製される
このようにして、もとは数十~数百kbpも離れていたDNA同士が、くっついた形で抽出できるのが、Chicagoライブラリ。

で、あとはこれを連続で読むかペアエンドで読むかして、先のショットガンゲノムアセンブリで作ったContigをScaffoldするという流れです。

Scaffoldに使用するソフトウェアはHiRiseという、彼らが開発した独自のもので、今は公開はしていません。

Dovetail社は、デノボアセンブリの受託に特化していて、機械やキットを売るというビジネスはしていません。
非常にシンプル! 

気になるのは金額ですよね。そこそこはします
まだ、インターナショナル価格は設定されていません。
この間のPAG Asia @シンガポールで、Dovetail社のブースが出ていました。
現CEOのToddさんは、元イルミナ社員で、かつ元BioNano社員で、PacBioのひととも仲が良い。
せっかくなので、みんなで夕食に行き、そのまま夜12時過ぎまで飲みました(私もToddさんとは知り合いだったのです。世界は狭い!)

これから、アメリカ国外に進出をしていく予定らしいので、注意してフォローしていきたいと思います。
PacBioとも親和性があると思うんですよね。


2016年6月20日月曜日

Dovetail - de novo Assembly 専門のテクノロジー(1)

大型ゲノムのデノボアセンブリといえば、これまで良く使われてきた方法として、
ショートリードでがっつりショットガンシークエンス &
PacBioで10x程度読んでScaffold

というのがありました。
この方法は、PacBioだけでアセンブリすることが(予算的に)できないときや、既にHiSeqで200xくらい読んでいてContigもたくさんある、というときなどに使われてきたと思います。
これからも、この方法は多く使われるでしょう。

では、PacBioで50x程度読んでアセンブリしたけれど、もう少しContigやScaffoldとして配列を長く伸ばしたい、という場合はどうしたら良いでしょう?
3つ方法があります。
1つめは、連鎖解析。これは古くから、植物などのゲノムアセンブリのバリデーションに使われてきたと思います。
2つめは、BioNanoのIyrsなど、Physical Mapping情報を使って、PacBio ContigをScaffoldingしていく方法。PacBioで読んだヒトゲノムの論文にも紹介されています。
3つめは、別のシークエンス技術を併用する方法。ショートリードでScaffoldする方法です。

今日は3つめの、ショートリードでScaffoldする話です。
今さら?と思われるかもしれませんが、Chicago Library、ってご存知ですか?

Dovetail Genomicsという会社と、UC Santa Cruzが開発した、通常のMate Pairよりも離れた場所の配列情報を読むためのライブラリ作製技術です。
もともと、ゲノムの3D 構造を見るための、Hi-Cという技術があります(Hi-Cの詳細に興味のあるかたは2009年の論文を参照)。
Hi-C: Lieberman-Aiden et al., (2009)

このHi-Cを使って、PacBioで読んだヤギのゲノムのContigを、染色体の長さレベルに伸ばそう(オリエンテーションも考慮して)としたプロジェクトは、PAG2015で発表がされました。

Hi-Cと非常に似ているのですが、Chicagoライブラリーは、in vitro で行なうところが大きく違います。
Chicagoは、Cell-free Hi-C for Assembly and Genome Organization の略らしいです(ここ)。

では、どんなふうに作っているのか。
Dovetail社はそれを使ってどんなビジネスを展開しているのか?
は次回のお楽しみ!






2016年6月6日月曜日

「10X Genomics と PacBio」 どちらかを選ぶとしたら?

10X Genomicsという会社を知ってますか?
10カバレッジ、ではありませんよ。ややこしい。

カリフォルニアにあるこの会社のテクノロジーは、簡単に言うと、「ショートリードシークエンサーを使って超長い配列をざっくり読んでしまう」もの。
日本語での説明は、ここ「GOクラブ」とかここ「技術夢想」にあります。
最近の発表は、YouTubeにも上がってますのでこちらもどうぞ。
10Xの最新マシンは、Chromium Systemという機械。
前機種よりも性能アップで、ゲノムアセンブリやExomeシークエンス、SNP フェージング、さらにSingle CellからのRNA-Seq発現解析ができる機械だそうです。

先月、Nature Methodに、ヒトゲノムの「デノボアセンブリ」とフェージングに、10Xのテクノロジーが使われた論文がでました。
Mostovoy et al. (2016) Nature Methods. doi:10.1038/nmeth.3865
この論文では、Hybridとあるように、Illumina、10X、BioNanoの3つの技術を使用しています。
それぞれのデータを組み合わせて、Scaffoldを作っています。
サンプルはHapMapのNA12878です。
10XはScaffoldの装置(Mostovoy.et al)

ContigとScaffoldの違いは、Contigは連続配列、Scaffoldは飛び飛び(NNNがある)配列
PacBioのスライドより(ContigとScaffoldの違い)

論文によると、もともとIlluminaペアエンド&メイトペアのデータだけでアセンブリした場合のContig N50が11.1 kb(Scaffold N50は590 kb)。
ヒトゲノム97カバレッジのGemCode(10Xの装置)データだけでアセンブルすると、Scaffold N50 は7.03 Mb、最大Scaffold は37.9 Mb
さらに、Physical MappingのBioNanoデータを追加して、これらのデータをハイブリッドして、Scaffold N50が33.5 Mb
Hybrid Assemblyの解析パイプライン(Mostovoy.et al

ショートリードだけでは短かったContig、Scaffoldから、「Scaffoldを飛躍的に長くした」のがこの論文のメインです。
Discussionのセクションには、10Xの技術のリミテーションも書かれています。

  1. 10Xの 「Linked-Read」 を出力するためには、高分子のDNAが必要
  2. Linked-Readは、ビーズ上のDNAをランダムk-mer増幅することにより作成される。そのため増幅されにくい配列(GCなど)は、その後シークエンスされない(つまりリピート配列などはNNNNNとして残る)
  3. NNNN配列の長さを短くするには、いくつかの異なるライブラリサイズのシークエンスが必要

GCリッチな場所が読めないというのは、目的にもよりますが、・・・ どうでしょうね。
やはりゲノムアセンブリには連続配列が重要ではないでしょうか? Scaffoldではなく、Contigが

ちなみにGenome In The Bottoleプロジェクトで、PacBioとBioNanoで同じサンプル(NA12878)を読んだときは、Contig N50 が1.4 Mb !
Scaffold も31.1 Mb


10Xの装置は、個人的には、ゲノムシークエンスよりSingle Cell発現解析のほうがメインな機能になる気がします。
また、現在、10Xはヒトゲノムオンリーの装置とのこと。
技術的にはヒト以外でも応用できると思いますが、ソフトウェア特に変異解析アルゴリズムがヒトゲノムに最適化している点や、あとはビジネス上の事情だと思います。


2016年6月2日木曜日

Superbug との戦いは続く

今年度が始まったかと思ったらもう6月ですね。
忙しくてブログを書いている暇もなかった・・・という言い訳はしません。

さて、伊勢志摩サミットが終わりました。
あんなに警官動員してテロを警戒していたのに、終わってみればあっけなく。
オバマ大統領が広島の原爆ドーム前でスピーチしたことだけが、大きなニュースになっていた感じ。 
サミットよりこっちの方が大きいニュースになるなんて。

そういえば、
伊勢志摩サミットの議題の一つに、感染症対策などの保健課題、というのがありました。

ここに、AMEDが今年の1月8日に発表した記事があります。
プレスリリースによると、
「国立感染症研究所の鈴木室長、黒田センター長らは、グラム陰性桿菌に対する重要な抗菌薬として位置づけられる抗生物質「コリスチン」に耐性となる遺伝子mcr-1が日本にも存在することを、薬剤耐性菌のゲノムデータベース「GenEpid-J」を探索することにより突き止め」た、そうです。

コリスチンは、薬剤耐性菌に対する「最後の砦」ともいえる抗生物質らしいですが、その薬に耐性を持つ遺伝子が、mcr-1です。
この遺伝子が家畜などの動物染色体内にあることは、数十年前からわかっていたらしいですが、問題はこの遺伝子が、Plasmidによって異なる大腸菌に運ばれるらしいのです!

細胞壁構築阻害剤のカルバペネム系抗生物質に耐性を示すSuperbug、CRE(carbapenem-resistant enterobacteriaceae)が、もしmcr-1遺伝子を獲得してどんな抗生物質も効かなくなったなら、それは悪夢です。
まさに、「nightmare bacteria」と呼ばれるゆえんです。

メリーランド州にあるWalter Reed Army Institute of Researchでも、最前線でSuperbugの研究が行なわれています。
軍の施設なので、そういう危険な菌の研究が行なわれているのは、ひょっとして細菌兵器の開発?なんて疑ってしまいますが、そんなことは無いでしょう。
これほど人の移動が多く、あっという間に全世界に広がってしまう、かもしれないSuperbugの情報は、もはや一国で管理できるレベルではなく、各国で情報をシェアしあいながら常に監視していかないとダメでしょうね。
そんなことが伊勢志摩サミットで話し合われたのかなあ、と思いました。

Water Reed研究所では、PacBio RSIIが、Superbugのゲノムシークエンス&Plasmidシークエンスに大活躍しているそうです。
ニュースの全文はこちら