2016年6月6日月曜日

「10X Genomics と PacBio」 どちらかを選ぶとしたら?

10X Genomicsという会社を知ってますか?
10カバレッジ、ではありませんよ。ややこしい。

カリフォルニアにあるこの会社のテクノロジーは、簡単に言うと、「ショートリードシークエンサーを使って超長い配列をざっくり読んでしまう」もの。
日本語での説明は、ここ「GOクラブ」とかここ「技術夢想」にあります。
最近の発表は、YouTubeにも上がってますのでこちらもどうぞ。
10Xの最新マシンは、Chromium Systemという機械。
前機種よりも性能アップで、ゲノムアセンブリやExomeシークエンス、SNP フェージング、さらにSingle CellからのRNA-Seq発現解析ができる機械だそうです。

先月、Nature Methodに、ヒトゲノムの「デノボアセンブリ」とフェージングに、10Xのテクノロジーが使われた論文がでました。
Mostovoy et al. (2016) Nature Methods. doi:10.1038/nmeth.3865
この論文では、Hybridとあるように、Illumina、10X、BioNanoの3つの技術を使用しています。
それぞれのデータを組み合わせて、Scaffoldを作っています。
サンプルはHapMapのNA12878です。
10XはScaffoldの装置(Mostovoy.et al)

ContigとScaffoldの違いは、Contigは連続配列、Scaffoldは飛び飛び(NNNがある)配列
PacBioのスライドより(ContigとScaffoldの違い)

論文によると、もともとIlluminaペアエンド&メイトペアのデータだけでアセンブリした場合のContig N50が11.1 kb(Scaffold N50は590 kb)。
ヒトゲノム97カバレッジのGemCode(10Xの装置)データだけでアセンブルすると、Scaffold N50 は7.03 Mb、最大Scaffold は37.9 Mb
さらに、Physical MappingのBioNanoデータを追加して、これらのデータをハイブリッドして、Scaffold N50が33.5 Mb
Hybrid Assemblyの解析パイプライン(Mostovoy.et al

ショートリードだけでは短かったContig、Scaffoldから、「Scaffoldを飛躍的に長くした」のがこの論文のメインです。
Discussionのセクションには、10Xの技術のリミテーションも書かれています。

  1. 10Xの 「Linked-Read」 を出力するためには、高分子のDNAが必要
  2. Linked-Readは、ビーズ上のDNAをランダムk-mer増幅することにより作成される。そのため増幅されにくい配列(GCなど)は、その後シークエンスされない(つまりリピート配列などはNNNNNとして残る)
  3. NNNN配列の長さを短くするには、いくつかの異なるライブラリサイズのシークエンスが必要

GCリッチな場所が読めないというのは、目的にもよりますが、・・・ どうでしょうね。
やはりゲノムアセンブリには連続配列が重要ではないでしょうか? Scaffoldではなく、Contigが

ちなみにGenome In The Bottoleプロジェクトで、PacBioとBioNanoで同じサンプル(NA12878)を読んだときは、Contig N50 が1.4 Mb !
Scaffold も31.1 Mb


10Xの装置は、個人的には、ゲノムシークエンスよりSingle Cell発現解析のほうがメインな機能になる気がします。
また、現在、10Xはヒトゲノムオンリーの装置とのこと。
技術的にはヒト以外でも応用できると思いますが、ソフトウェア特に変異解析アルゴリズムがヒトゲノムに最適化している点や、あとはビジネス上の事情だと思います。


0 件のコメント:

コメントを投稿