これはもうわりきっていることですが、長いリードを使ってできること、のひとつ
「Large InDel, Structural Variantの検出」を、ヒトゲノムでやるのはなかなかチャレンジングなテーマです。
なぜかと言うと、昨年(2014年)まで、
- デノボアセンブリするにはものすごい計算量が必要だった
- 平均リード長が、長いといっても5Kb(P4)、7Kb(P5)で、長いリードでゲノムカバレッジ上げるのにセル数がたくさん必要だった
もちろん、今(2015年)でも、PacBioでヒトゲノムやるにはバイオインフォの専門家が必要です。
誰でも簡単に楽チン解析!というわけにはいかんのです。
そんな中、韓国では、Macrogenという会社が、PacBio RSII を2台、HiSeq X10を、大人買いして、韓国人ヒトゲノム解析を行いました!
PacBioを買った、というプレスリリースが昨年10月だったから、たった5ヶ月余りで結果を出した、スピード感が半端無い。
以下、画像はPacBio AGBT 2015のYou Tubeからスライドキャプチャー
(その場面から観たいひと向けに時間も表示しておきます)
PacBioRSIIとHiSeqX10を使って、Blood Cell lineとGerm CellのBACを読んでいます
が、デノボアセンブリのメインはあくまでPacBioのデータ
281個のSMRT Cellでゲノムサイズの72X分のデータをP6C4で出力
Falconを使ったDiploid デノボアセンブリを行い、N50が7.3MbのContigを記録!
まあ、アセンブル結果は、PacBioすごい!の一言になるのでもう聞き飽きているひともいるでしょうね
BioNanoのIrysも使われたそうです
でもこれについては、本プレゼンでは軽く触れる程度です
IrysとPacBioRSIIは、親和性が高いと個人的には思っています
今度機会があったら、両方持っているユーザに聞いてみようっと
さて、本題のStructural Variant
先ずPacBioで作ったContigを、GRCh38リファレンスゲノムに対して、Symapでアンカリング
次に、アンカリングされたContigと、染色体配列を、アライメント
構造変異があったところは当然アライメントされないでしょうから、そういう箇所を "In-House Tools" を使って検出
だそうです。
In-House Toolsが知りたい!
まあ、そのうち論文になるのでしょう。そのときを楽しみに
SyMAPというのは、 比較ゲノムで用いられるツールのひとつです。
異なる種のゲノム(Contigも)配列を比較して、どこが一致しているのかをビジュアルで見せてくれるプログラム サイトはここ
フリーツールですよ
彼らはこうして、ヨーロッパ人には無い、アジア人特異的な構造変異、InDelなどを次々に発見!
おそらく、今年のアメリカ人類遺伝学会ではもっと、エキサイティングな発表があるでしょう。
韓国以外のユーザからも、もちろんね
で、Structural Variant関連でもうひとつ
こちらは前回も紹介した、CSHLのMcCombie博士らのHer2陽性乳がんセルラインのデノボシークエンスの発表
SMRT Cellのパフォーマンス、こちらはオンタリオがん研究所のデータですが、どんどん長くなっているのがわかります。
で、今は平均11kb、1セルあたり1Gbを出力していますね
きれいなデータです
これくらい、出ることもあります
Lumpyというプログラムは、恥ずかしながら知らなかったのですが、論文になっているようです。
ソフトクリップアライナーでアライメントされたBAMファイルをインプットとして、ゲノム位置が離れてマップされているリード情報から、構造変異の箇所を特定するツールです。
アライナーは、NOVOALIGN、BWA-MEM、YAHAなど、"Long Read" でもアライメントできるもの(PacBio用という意味ではないことに注意)を使用
LUMPYは、Illumina用に開発されたようで、ここでも彼らはIlluminaデータを使って、BWA-MEM+LUMPYで、大まかなマップ位置を確認
その後、(あまり詳しく述べていませんが)PacBioを使ったローカルアセンブリ
このHer2タンパクは、正常細胞にも存在し、細胞増殖に関わっています。
乳がんの患者さんのがん細胞では、正常細胞に比べて、過剰に発現・活性していることがわかってきたそうです。 ここにくわしい
Her2と言えば、これを狙った分子標的約、ハーセプチン(これは商品名、正式名はトラスツズマブ)が有名です。
薬学部卒でもない私が何でこんなこと知っているかと言うと、前職で扱っていたパスウェイソフトウェアで、薬とタンパクのパスウェイをいくつか作っていたからです!
こんなときに役立つとは。
ま、話を戻すと、Her2陽性乳がん細胞で、17番染色体上のHer2遺伝子が過剰増幅したときのメカニズム、
8番染色体との転座による増幅、
Her2周辺の遺伝子と共に増幅、
部分的にInversionなどされて増幅、
などの様子が、今回PacBioを使ったシークエンスで確認できた。
この乳がんセルラインは、もともとHer2が過剰発現している細胞株だとわかっているから、これをシークエンスレベルで確認できただけ、と言ってしまえばそうなんだけど、
今あるテクノロジーでここまではっきり確認できるのはPacBioのロングリードがあればこそ、でしょう!
オンタリオがん研究所は、カナダでもトップのがん研究機関。
ここにPacBioが入ったのは2011年とかなり初期です。
当初、ヒトゲノムに挑戦するのはかなり大変だったけれど、今ではこのように現実味が出てきた。
まだまだセル数はたくさんいるけれど、これでがんの遺伝子メカニズム・構造変異が発見できるなら、決して高価なプロジェクトではないのでは?
これまでのテクノロジーでは隠れていた、大発見があるかも知れませんね。