パックマンの挑戦　－　PacBioシークエンサー: 3月 2015

2015年3月31日火曜日

Structural Variant - 構造変異　PacBioでヒトを読んだら

PacBioのリードは長い
これはもうわりきっていることですが、長いリードを使ってできること、のひとつ
「Large InDel, Structural Variantの検出」を、ヒトゲノムでやるのはなかなかチャレンジングなテーマです。
なぜかと言うと、昨年（2014年）まで、

デノボアセンブリするにはものすごい計算量が必要だった
平均リード長が、長いといっても5Kb（P4）、7Kb（P5）で、長いリードでゲノムカバレッジ上げるのにセル数がたくさん必要だった

もちろん、今（2015年）でも、PacBioでヒトゲノムやるにはバイオインフォの専門家が必要です。
誰でも簡単に楽チン解析!というわけにはいかんのです。

そんな中、韓国では、Macrogenという会社が、PacBio RSII を2台、HiSeq X10を、大人買いして、韓国人ヒトゲノム解析を行いました！
PacBioを買った、というプレスリリースが昨年10月だったから、たった5ヶ月余りで結果を出した、スピード感が半端無い。

以下、画像はPacBio AGBT 2015のYou Tubeからスライドキャプチャー
（その場面から観たいひと向けに時間も表示しておきます）

PacBioRSIIとHiSeqX10を使って、Blood Cell lineとGerm CellのBACを読んでいます

が、デノボアセンブリのメインはあくまでPacBioのデータ

281個のSMRT Cellでゲノムサイズの72X分のデータをP6C4で出力

Falconを使ったDiploid デノボアセンブリを行い、N50が7.3MbのContigを記録！

まあ、アセンブル結果は、PacBioすごい！の一言になるのでもう聞き飽きているひともいるでしょうね

デノボアセンブルの結果は、BACのアセンブル結果と共に、GapをFilling
BioNanoのIrysも使われたそうです
でもこれについては、本プレゼンでは軽く触れる程度です
IrysとPacBioRSIIは、親和性が高いと個人的には思っています
今度機会があったら、両方持っているユーザに聞いてみようっと

さて、本題のStructural Variant
先ずPacBioで作ったContigを、GRCh38リファレンスゲノムに対して、Symapでアンカリング
次に、アンカリングされたContigと、染色体配列を、アライメント
構造変異があったところは当然アライメントされないでしょうから、そういう箇所を "In-House Tools" を使って検出
だそうです。
In-House Toolsが知りたい！
まあ、そのうち論文になるのでしょう。そのときを楽しみに

SyMAPというのは、比較ゲノムで用いられるツールのひとつです。

異なる種のゲノム（Contigも）配列を比較して、どこが一致しているのかをビジュアルで見せてくれるプログラム　サイトはここ

フリーツールですよ

彼らはこうして、ヨーロッパ人には無い、アジア人特異的な構造変異、InDelなどを次々に発見！

おそらく、今年のアメリカ人類遺伝学会ではもっと、エキサイティングな発表があるでしょう。

韓国以外のユーザからも、もちろんね

で、Structural Variant関連でもうひとつ

こちらは前回も紹介した、CSHLのMcCombie博士らのHer2陽性乳がんセルラインのデノボシークエンスの発表

SMRT Cellのパフォーマンス、こちらはオンタリオがん研究所のデータですが、どんどん長くなっているのがわかります。

で、今は平均11kb、1セルあたり1Gbを出力していますね

きれいなデータです

これくらい、出ることもあります

ここでももちろん、構造変異を見ています

Lumpyというプログラムは、恥ずかしながら知らなかったのですが、論文になっているようです。

Layer et al., LUMPY: a probabilistic framework for structural variant discovery

ソフトクリップアライナーでアライメントされたBAMファイルをインプットとして、ゲノム位置が離れてマップされているリード情報から、構造変異の箇所を特定するツールです。

アライナーは、NOVOALIGN、BWA-MEM、YAHAなど、"Long Read" でもアライメントできるもの（PacBio用という意味ではないことに注意）を使用

LUMPYは、Illumina用に開発されたようで、ここでも彼らはIlluminaデータを使って、BWA-MEM＋LUMPYで、大まかなマップ位置を確認

その後、（あまり詳しく述べていませんが）PacBioを使ったローカルアセンブリ

Her2（Human Epidermal Growth Factor Receptor type 2）遺伝子は、ヒト上皮細胞増殖因子受容体と良く似たタンパクを作ります。
このHer2タンパクは、正常細胞にも存在し、細胞増殖に関わっています。
乳がんの患者さんのがん細胞では、正常細胞に比べて、過剰に発現・活性していることがわかってきたそうです。　ここにくわしい
Her2と言えば、これを狙った分子標的約、ハーセプチン（これは商品名、正式名はトラスツズマブ）が有名です。

薬学部卒でもない私が何でこんなこと知っているかと言うと、前職で扱っていたパスウェイソフトウェアで、薬とタンパクのパスウェイをいくつか作っていたからです！
こんなときに役立つとは。

ま、話を戻すと、Her2陽性乳がん細胞で、17番染色体上のHer2遺伝子が過剰増幅したときのメカニズム、
8番染色体との転座による増幅、
Her2周辺の遺伝子と共に増幅、
部分的にInversionなどされて増幅、
などの様子が、今回PacBioを使ったシークエンスで確認できた。

この乳がんセルラインは、もともとHer2が過剰発現している細胞株だとわかっているから、これをシークエンスレベルで確認できただけ、と言ってしまえばそうなんだけど、
今あるテクノロジーでここまではっきり確認できるのはPacBioのロングリードがあればこそ、でしょう！

オンタリオがん研究所は、カナダでもトップのがん研究機関。
ここにPacBioが入ったのは2011年とかなり初期です。
当初、ヒトゲノムに挑戦するのはかなり大変だったけれど、今ではこのように現実味が出てきた。
まだまだセル数はたくさんいるけれど、これでがんの遺伝子メカニズム・構造変異が発見できるなら、決して高価なプロジェクトではないのでは？
これまでのテクノロジーでは隠れていた、大発見があるかも知れませんね。

2015年3月18日水曜日

Venter博士の野望

前のブログで、AGBTのPacBioワークショップのビデオリンクを紹介しましたが、皆さん、見ましたか？
いやー時間が無くて見てないよ、という方は、とりあえずVenter博士のトークを見てみましょう。

Venterさんといえば、皆さんご存知、ヒトゲノムプロジェクトに企業として挑戦した、あのセレラジェノミクスの社長ですね。
実は、私は8年ほど前、セレラジェノミクスの会社の前を、車で偶然通りかかったことがあるのです。
そのころ彼らは何をしていたかというと、海に沈んだ古い沈没船を引き上げて、その船についていた泥から、微生物を採取し、そのバクテリアのゲノムを片っ端から読んでいたんです。
当時、次世代シークエンサーというものはありませんでした。
ですから、キャピラリーシークエンサーで読んでいたんでしょうね。
セレラ社の周りには、バイオベンチャーがたくさん集まっていたのですが、皆、「あいつは何をやっているんだ？」と訝しげに話していたのを覚えています。

さて、その後Venter博士は、Synthetic Genomicsという会社を、カリフォルニア州La Jolla（ラホヤと発音）に設立しました。
そしてまた偶然なんですが、先月、私の友人の紹介で、その会社を訪問する機会がありました。
（実は訪問するまでその会社がVenterさんの会社だとは知らされていませんでした。「面白い会社があるから紹介するよー」みたいな乗りで、そこの副社長とランチ&ディスカッションをすることができたのです）
で、その会社で何をしているかというと、Synthetic Genomicsという社名の通り、ゲノムを合成して、新しい生物を作っているのです！！

まさに究極の遺伝子組み換え生物！

生物が地球上に誕生したのが、35億年前、ストロマトライトだと言われています。
35億年の進化の中で、ゲノム情報は非常に複雑に、時に冗長性のある、無駄な情報を含んでしまいました。
それをきれいに、必要最低限の情報量にしてやれば、もっと効率的に、代謝・生産・合成をしてくれる生命体ができるのではないか？

先ずはゲノム情報が比較的単純な微生物です。

AGBT2015、Craig Venter博士の講演より

必要情報に絞れば、ゲノムはとてもスリムになります。
無駄を無くせば、例えば、バイオエタノールなどの生産をもっと効率的に高めることができます。
このようにして、人間の生産活動に有望なゲノムを作ることを、彼らは目指しているのです。

で、最初の話に戻るのですが、沈没船についていた泥に含まれていた微生物のゲノムを、なんで彼らは読んでいたのか。
それは、人類にとって有益な微生物を、真っ先に手にするため。
将来的にゲノムを改造して、より良い微生物を作り出すため
の、大きなプロジェクトの第一歩だったのではないでしょうか。

そう考えると、Venterさんの先見の明はすごい！

実は私が大学時代（カナダの某大学に留学していたときですが）、Venterさんの講演を聞いたことがあります。
そのときは正直、彼の話がとっぴすぎて、科学者というよりもSF作家の話を聞いているようでした。
でも今思えば、彼は10年先、20年先をも見据えて、ビジョンを語っていたのでしょうね。

今、Synthetic Genomics社では、様々な微生物、藻や植物、昆虫など、ゲノムをがんがん読んでいます。
それに貢献しているのがPacBioのシークエンサーです。
私も見てきましたが、すごいラボでした。
さすが、カリフォルニアの一等地に構える研究所です。
バイオインフォのインフラもしっかりしていました。
専用のデータベース、ソフトウェアも設計していました。
NCBIのゲノムブラウザよりも、はっきり言って使いやすいかも。

アメリカのゲノムビジネスはすごい
日本も頑張らなくては！

2015年3月12日木曜日

AGBTのビデオと最近の報告

お待たせしました！
私も含め、AGBTに行かれなかった方、
そして深夜2時からのライブストリームを見ていて、途中睡魔に襲われてあきらめた方、
PacBioのワークショップの模様が、YouTubeにアップされています！
こちらからどうぞ

2時間ありますからね。
結構内容リッチですよ！

前にも少し書きましたが、PacBioだけでヒトゲノムを読んだ話が出てきます。
司会をやっている赤いポロシャツのおじさんが、PacBioのCEO、Michael Hunkapille氏です。

2時間ありますが、ドライの方に特にお勧めなのは、Gene Myers氏による、新しいロングリードアライメントのツール、Dalignerの話。
今や、Falconアセンブリの最初に行なわれる、Pre-Assemblyツールです。
まだPacBioとしては、公式にサポート対象にはなっていません。
興味あるひとは是非どうぞお試しください、というようなレベルです。ですが、アライメントが非常に速くなるツールだそうです。
今度別の機会に、Dalingnerについて書きます。

さて、先週は、ゲノム微生物学会@神戸　
金、土、日と3日間、六甲の神戸大学にて行なわれました。
300名余りが参加したとのこと。
講演会場に入りきれない可能性があったので、場外（展示ブースが並んでいるすぐ脇）スクリーンとスピーカーがあって、私たちも聞くことができました。
うん、これは良い計らい。

ランチョンも盛況

こんな様子で190名くらいが参加。
演者を快く引き受けてくれた丸山さん、ありがとう！
おかげで3日目は、PacBioに興味を持った方がたくさんブースにいらっしゃいました。

続く3/9と10は、PacBioのユーザを対象にした、バイオインフォマティクスワークショップ@東京
PacBioからインフォのトレーナーを招いて、2日間のプレゼンベースのトレーニングをしました。
内容はデノボアセンブリ（Falconなど）とIso-Seq

Iso-Seqは、実験のデザインによって、新しいアプリケーションが生まれそうな予感。

今は、全トランスクリプトームを網羅しようとすると、たくさんのSMRT Cellが必要
ターゲットを絞ってIso-Seqしようとすると、プライマーを設計する必要
RNAの量が少ないと、PCRでたくさん増幅する必要
まだまだ、「必要」が多いので、ここをなんとかするニーズがあるはず。

ところで、ワークショップには、韓国のユーザも参加していました。
そのうちの1人は、日本語が堪能な女性だったのですが、なんと、
私のブログを読んでいるというのです！

韓国にもブログの読者がいるとは、ちょっとうれしかった。

2015年3月4日水曜日

AGBTレポート3：Human Genome Assemblyには何時間かかる？

しつこいようですが、私はAGBT行っていません（笑）。

PacBioのランチョンセミナーにて、ヒトゲノムのアセンブリがいくつか発表されました。

J. Craig Venter博士のゲノム
（おととい書いた）Breast Cancer細胞株のゲノム
韓国人リファレンスゲノム by Macrogen社

そのうち、Venter氏のゲノムと、SK-BR-3株のゲノムのアセンブリは、DNAnexus社のクラウド計算機を使うことで、それぞれたった2日で終わったそうです！

Venterゲノムを例に挙げると、PacBioのP6C4試薬で読んだ、平均リード長14kb、N50リード長19kbの、ロングリードを1790万本、総塩基数266Gb（85x）をインプットデータとして用意。
DNAnexus上のクラウドサーバでFALCONを流し、ContigのN50はなんと11.5Mb !!　全体の塩基のうち1Mb以上の長さのContigが97.8% !!
これら計算にかった時間は48時間、計算ピーク時のCPUコア数は14,000

クラウドサーバでヒトゲノムのアセンブリ、それも最高に素晴らしい（長い）Contigが2日で出てくる時代、ですか・・・。

気になるお値段ですが、DNAnexusのサイトには、1回5千ドルから1万ドル、と書いてありました。　そんなに高くない？

レジストしてログインすれば、データ解析のパイプラインを見ることができます。

うーん、やってみたい。
Daligner→Falcon→Quiverの流れ
でもポケットマネーじゃ無理～。

このようなクラウド環境ができるのは、サーバを用意できない、用意したくない、ユーザにとって良いことでしょう。
臨床データをバンバン読むようなところなら、クラウドに上げるのはちょっと抵抗あるでしょう。
でも、PacBioでヒトゲノムアセンブリするのが目的ならまだまだ高価なプロジェクト。
細胞株や、リファレンスゲノムのようなサンプルならクラウドでささっとアセンブルするのも良いのかも。

Lin, Mike (2015): Comparing de novo assemblies of J. Craig Venter's genome. figshare.
http://dx.doi.org/10.6084/m9.figshare.1319564
Retrieved 07:42, Mar 03, 2015 (GMT)

PacBio Onlyのゲノムアセンブリは、GRCh38やHuRef (2007) と比べて全く見劣りしない。

結構驚いたのですが、どうですか？
かたや数十億ドル国際プロジェクト、そして企業の威信を賭けた大プロジェクト。
それが今や、たったひとつの機械で3ヶ月程度のシークエンス時間と、2日間のアセンブリ。

アセンブリ、ですからね。
リシークエンスじゃありませんよ。

2015年3月3日火曜日

AGBTレポート2：Synthetic Long Read Again ?

Bio IT World の記事です。

10X Genomics at AGBT

AGBTでは、NGS関連での大きな新製品発表のニュースはありませんでした。

Illumina社は1月に、HiSeq3500、4000、HiSeq X5をもう発表していたので、新しい発表は無し

Thermo Fisher (LifeTech)社は、P2チップの販売はまだ無し

Oxford Nanopore社は、いつも通りで、インパクトに欠ける

Qiagen社のシークエンサー、Gene Readerはまだ形が出るまで時間がかかる

AGBT唯一のゴールドスポンサー、Pacific Biosciences社は、「いよいよベンチトップマシンを発表するか!？」という噂があったそうですが、それはあくまで噂。

PacBioの大きさは変わりませんよー！

さて、そんな中、注目されたのが、10X Genomicsという会社

この機械の名前は、GemCode

ユーザはDNAサンプルを、GemCode Chipといわれるカセットに投入します。

すると、ゲルビーズとオイルが充填された微細管流路（Microfluidics）の中を、DNA分子が分かれていって、ひとつのGem（ウェルと訳せるのかな？）に一分子のDNAが入るそうです。

このときはまだ、DNAも100kbくらいのロング配列。

で、そのGemごとに、ロングDNAは、Illuminaシークエンサー用に断片化され、14-baseのバーコードが付けられる（この辺の技術は公開されていない？）。

Gemごとにバーコードが付いているので、断片化した後ライブラリが作られシークエンスされても、元のDNA分子がどのロングDNA由来だったかがわかるので、ショートリードからソフトウェアで元のロングDNA配列が再現できるというわけ。

ん？

何かどこかで似たような技術があったかと。

Moleculo 社の Symthetic Long Read !!

これも、切断前のDNAにタグをつけて、ライブラリを作ってHiSeqでシークエンス、そのあとタグを元にアセンブリし、切断前のDNAを再現する。

結局、10X Genomicsのテクノロジーも、真のLong Readではないのです。

ショートリードのテクノロジーを使ってシークエンスする以上、GCリッチの連続配列など、読みきれない場所が必ずあると思うんですが、まだデータを見ていないので何とも言えませんけど。

2015年3月2日月曜日

AGBT レポート:　がんの構造変異をPacBioで読み解くプロジェクト進行中

AGBTレポート、って書いていますが私、行ってません。
Twitterとかブログとか、ビデオとか、学会に行っていなくても情報収集はそこそこできるんですね、今の時代。

がんの構造変異、Genomic Instabilityは、コピー数変異とか染色体転座とか、いろいろあります。
PacBioのロングリードで、いったいどこまでわかるのか？　そんなプロジェクトに挑戦したのが、Cold Spring Harbor Laboratory のW. Richard McCombie博士らと、Ontario Institute of Cancer Research の研究者たちです。

McCombie博士らは、HER2+ breast cancer セルライン、SK-BR-3を、PacBioで全ゲノムの70X カバレッジ読みました。
平均リード長は9～13kb、最大71kb（P6C4試薬なら、不可能ではありません。私も最近、平均11kb、最大54kbのデータは見た事あります）

70xも読むこともすごいですが、これだけのデータ解析をする計算機もきっとすごいものをお持ちでしょうねえ。

ということで、解析パイプラインは

ゲノムに対するアライメントで大抵の変異イベントをキャッチ
特に興味のある場所に関しては、ローカルアセンブリをして、転座やLarge InDelが無いか調べる
最後にホールゲノムアセンブリで、新規の変異を探す

というもの。

Her2遺伝子のコピー数増加は、ショートリードでもわかることかもしれませんが、その周辺の転座などはPacBioでダイレクトに読んだほうが、確実です。
メイトペアやペアエンドの情報よりも、PacBioの連続ロングリードの情報のほうが、「ここで転座おきている!」って説得力ありますよね。

ところで、このプレゼン、CSHLのSchatzラボのリンクからPDFが入手できます。
がんの研究にPacBio使えるかなあ、って興味ある方は一読をお勧めします。

実際に見つかった転座の位置なども、スライドを見たほうが一目瞭然ですね。