2015年12月20日日曜日

PacBio メディカル関係の記事3つ

12月も半ばを越えると、もうアメリカはクリスマスモード。メールもほとんど来ません。
ブログを書く暇があるので、今日は、最近ウェブで紹介された、メディカル関係の記事を3つ紹介します。

まずはこちら、Diagnostics Worldからの記事

Long-Read Sequencing in the Age of Genomic Medicine


Icahn School of Medicine at Mount SinaiのBobby Sebra氏曰く、「Pseudogenes, large structural variants, validation, repeat disorders, polymorphic regions of the genome―all those are categories where you practically need PacBio」
ヒトゲノムに存在する変異には、ショートリードでは検出できない大きな構造変異、リピート変異が多く存在します。これらを検出するにはPacBioのロングリードが不可欠、という話。

技術はある。マシーンもある。あとはソフトだけ。

ソフトウェアは、研究者向けには一通り揃っていますが、お世辞にも現場の医者向けではありません。
それはどのNGS機器でも同じ問題を抱えているでしょう。
Mount Sinaiでも、3台のPacBio RSIIから出てくるデータを効率よく解析できる様に、彼ら独自のソフトウェア・アルゴリズムを作っています。(例:構造変異検出ツールとか)
また、ひとつのテクノロジーにこだわらず、10Xや、BioNano、Oxford Nanoporeなどいろいろな技術を次々に取り入れ試しています。
最近2倍体ヒトゲノムをPacBioとBioNanoで解析し、それまでのどの結果より優れたContig/Scaffold配列を作りました。

このように、他のNGSとは明らかに優位性を持つPacBioのロングリード。
メディカルの現場に持ってくるにはどうしたら良いか?

言うまでも無く、機械の使いやすさと安定性、低コスト、わかりやすいソフトウェア、が必要でしょう。
RSIIからSequelになって、実際のところはどうでしょうか?

Sebra氏は、Sequelのアーリーアクセスユーザでもあります。
その辺の話は、また今度、2月23日(火)に秋葉原で行なわれる、「第二回PacBio現場の会」ワークショップセミナーにて、詳しく聞けますよ。
お時間があれば是非ご参加下さい!お楽しみに!

ちなみにこの記事の中に登場する英語で、「Off-the-shelf」というのがあります。
いつでも買える、とか、入手可能な、という意味です。
Off-the-shelf analysis, with readable diagnostic reports for doctors
というと、医者が読みやすい、臨床レポートが出てくる解析ツールの存在、という意味。
今はまだありませんが、これなくしてクリニカルシークエンスの現場に普及するのは難しいですから、絶対できるはずです。


次はGenomeWebから(ごめんなさい、これは有料みたいです)

Baylor Team Explores PacBio Long Reads for Detecting Pathogenic Structural Variants in Patients

こちらはBaylor College of Medicine & Miraka が考えている、ヒト診断への可能性についての記事です。
BaylorのAssistant Prof. Bainbrigdeは述べています(ざっくり翻訳)。
「ヒト全ゲノムのシークエンスが現実的なものになり、皆さんこれで構造変異などの問題は全て解決できる!と思ったはずです。でも、たいていの構造変異検出プログラムは、変異全体の1/3~1/4ほどしか検出できていないんです。それらを合わせても半分くらいしか実は検出できていないことになります。でも、6,000~10,000 bpのロングリードを使えば、もっと簡単にできるはず」

Proof-of-Concept(できるかどうか試してみよう実験)にて、Baylorのチームは、PacBioのロングリードが、どれだけ遺伝子検査に応用できるかを調べました。
彼らはまず、既知の疾患関連遺伝子ベスト100にフォーカスしています。その中には、がん関連遺伝子60余りや、シングルセキソンの抜け落ちが原因で引き起こされる疾患関連遺伝子、Fragile Xシンドロームなどリピートの数が重要となる遺伝子、が含まれます。

そのような、重要遺伝子だけをキャプチャーする技術、キャプチャーシークエンスとかターゲットリシークエンスとか呼ばれますが、これをPacBioのロングリードにも応用できます。
前のブログ「PacBio-LITS PacBioでターゲットリシークエンス 1& 2」でも紹介しましたが、プローブを用いて、7kb程度のロングリードをキャプチャーできるようになったのです。

今までのキャプチャーシークエンスといえば、タンパクコーディング箇所に焦点を当てた、エキソームシークエンスが有名ですね。
各メーカーがキットを出しています。
PacBioのロングリードでできるキャプチャーは、エキソンのみならず、遺伝子全体なんです。
遺伝子全体をキャプチャーできるアプリケーションはPacBioのロングリード無しではできない。
これはがん遺伝子もそうですが、HLA遺伝子なんかも、全体をキャプチャーしたほうが複雑な変異(phasingなど)を検出できるので良いと思います。


最後は、こちら
Front Line Genomics Magazine  Issue Six


こちらの雑誌はフリーで全文読むことができます。
その42~43ページめにPacBioの記事があります。
インタビューに答えているのは、PacBio本社のマーケ担当、イケメンLuke Hickey

内容は、これまでPacBioを使って挑戦されてきたヒトゲノムアセンブリの紹介と、On-Goingなプロジェクト。

ハプロイドのヒトゲノム(hydatidiform mole, CHM1)をPacBioで読んで読んで・・・というのは、以前このブログでも紹介しましたが、その時はWashington University in St. Louisのプロジェクト。
大学名が似ているのでたまにごっちゃになるのですが、こちらはthe University of Washington、さらにUniversity of Bari Aldo Moro と University of Pittsburghのチームは、同じくハプロイド株を40X PacBioで読んで、リファレンスゲノムに存在する160箇所のギャップのうち半数以上を、クローズするかギャップを縮めたそうです。
そのほとんどはGCリッチな場所、反復領域だったとのこと。
さらに、100万塩基以上の新規の配列を追加。
彼らが見つけた26,079個の変異箇所のうち、コピー数変異の85%、挿入変異の92%、欠損変異の69%が、これまでに報告の無い新規だったそうです。

ということは、リファレンス配列といっても、まだまだ完璧ではなかったんですねえ。

リファレンス配列といえば、ここ数年、人種ごとにリファレンスを作ろう!的なプロジェクトが動いています。
韓国のマクロジェン社とソウル大学が推し進める、韓国人リファレンスゲノム計画は、PacBio、BioNano、BACシークエンスを使ってデータを出し、完成に近づいています。
GRC(Genome Reference Consortium)アセンブリよりも、よりアジア人を代表するリファレンスゲノムになる予定です。

さらに、あのCraig Venter博士が率いるHuman Longevity, Inc. では、世界の人種を代表するゲノム、30リファレンスを作成する計画があるそうです!
何とも壮大な計画・・・
Front Line Genomics Magazine,  Issue Six, p43
こういう夢のある計画、いいですね。

ヒト以外の生物でも、もう一回PacBioで全ゲノム読んでみたら、意外と新規配列がたくさん見つかるかも。






2015年12月16日水曜日

Oropetium ゲノムをPacBioで解読

前記事のアズキマメのゲノムサイズは540Mb
それに比べるとインパクトは薄いですが、245MbのOropetium thomaeum ゲノムもPacBioで読まれて論文になりました。

Oropetium なんて発音するんでしょうか? オロペティウム? 乾燥に強い芝です。
VanBuren et al.,(2015)

植物ゲノムは一般的にサイズが大きく、倍数体を持つため、アセンブリが非常に困難です。
でもこの植物のゲノムサイズは比較的小さい245Mbで、全体の43%がリピート配列だそうです。
タンパクコーディング遺伝子の数は28,466個。ヒトより多いですね。

この論文の共同著者には、PacBioの社員が何人も含まれています。
なーるほど、つまり、Best of the Bests 的な仕事なわけですね。

20 kb ライブラリを作成し、Blue Pippinで15kbカットオフ
P6-C4ケミストリーを使って何と、72xも読んでいる! 245Mb X 72 = 17.64Gb
32セルランしてかかった時間は1週間
今なら十分可能です。 P5だとちょっと厳しかったかな。

アセンブリはPacBioらしく、HGAPを使用。
エラー補正後のサブリードの、16kb以上の長さのものを使ってアセンブリし、最後にQuiverを2回。

650本のContigは全ゲノムの99%をカバーし、N50 は2.4Mbに達したとのこと。

このOropetiumゲノムアセンブリ結果のすごいのは、18箇所のテロメアにて、40から900のリピート配列をきちんと捕らえ、また9つのうち3つのセントロメア領域もカバーできたことです。
なかなかやるなあ。

時間とコストについても述べています。
"The total time from extracted DNA to a complete assembly was less than one month, and costs for PacBio were comparable to an Illumina-based genome assembly."
つまりコスパが良い!
日本でのランニングコストに見合せても、同じことが言えるでしょう。きっと。

またエラーについても、シングルリードのエラー率が15-20%であるが、Contigレベルでは99.99995%に達し、Sangerシークエンスと比べても遜色無いことを述べています。
PacBioの社員が研究に加わっているので当たり前かもしれませんが、PacBio Onlyでシークエンスすることをお勧めしていますね。

でもこの精度の高さにはちょっと驚き。




2015年12月15日火曜日

アズキゲノムをPacBioで解読

先日、つくばにて、データ解析ワークショップ(NGSワークショップ)があり、私は午前中のセッションでSequelについて喋ってきました。
午前中は、NGSメーカー全社がそれぞれの最新情報を発表し合うというもの。
なかなかそういう場は無いですよね。
よく、「競合同士は仲が悪い」と勘違いされているひとが多いですが、私に限っては結構業界の横のつながりが多いです。
その方が業界全体が活性化されると思うので。

さて、お昼前には、五條掘先生の特別講演。
サウジアラビアの大学は、まさに世界でもトップクラスだということを実感しました。
お金が潤沢にあるから、と片付けてしまえばそれまでですが、石油以外に目立った産業が無いことを将来の危機と感じて、学問を育てよう、どうせやるなら世界一を目指そう、というサウジ政府の覚悟がすごい!
同じように、将来を見て教育に投資をしている国は、シンガポール、スウェーデン、など、大国ではない国に見られる気がします。
日本やばい。

五條掘先生が最後の方に仰った、
「良い問題をつくることが良い結果を残すことにつながる」という哲学的な言葉は、学問全般に言えるな、と思いました。
しょーも無い問題を提起して研究しても、それなりのレベルの結果しか残らない。
しかし「良い問題」を作るのもまた、センスがいる。
学問のみならず、政治や産業の世界にも通じる言葉の気がしました。


さて、セッション最後の発表は、農生研の坂井さん。
「Vigna属植物ゲノム研究の最前線」です。
坂井さんらのこの研究は、先日、論文なりました。


NGS現場の会では共著者の内藤さんが、進化学会ランチョンでは坂井さんが、それぞれ発表されていますので、ご存知のかたも多いでしょう。

アズキマメが含まれるVigna属というのは本当にすごい植物たちです。
乾燥に強かったり、塩害に強かったり、アルカリ土壌や酸性土壌に強かったりと、様々な耐性を身につけた種が多いスーパー植物連合だそうです。
9種が栽培種となり、82種は野生種。 栽培種9種のうちのひとつ、アズキマメのゲノムを今回PacBioとイルミナのシークエンサーで読んでアセンブリし、これまでで一番精度の高いゲノム配列を作り上げました。

ゲノムアセンブリのために使用したデータは、51xのPacBio ケミストリーはP5-C3
最初のエラー補正はSpraiを使用、その後リードの長いほうから25x分を選択してCelera アセンブリし、Quiverで最終補正というパイプライン。

まず、PacBioだけのアセンブリ結果(Assembly_3)ですが、Roche+Illumina(Assembly_1)、Illumina Only(Assembly_2)と比べても、Contig数、N50やMax Contig 長などの数字が桁が違うのは一目瞭然。
Sakai et al.,(2015)
さて、その後6,000個のSNPマーカーを頼りに、リンケージマップを作成し、Contigをアンカリングしていきます。
このようにしてアセンブルミスを除去していくと、想定ゲノムサイズの83%、448Mbにまとまりました。うち明らかな矛盾は19箇所。
これらはイルミナリードをマッピングすることで、矛盾は除去されたそうです。

PacBioといえども、アズキマメの例では、アセンブルのエラーは0ではありませんでした。
1,631個のSubstitution、8,611個のInsertion、38,889個のDeletionエラーがあったそうです。
ランダムに91個をSangerで調べたところ、確かにPacBioの方が間違いであったと。
その多くは、3塩基以上連続するホモポリマー。
私もデータを見せてもらいましたが、確かにホモポリマーが多かった記憶があります。
Sakai et al.,(2015)

これらのエラーはイルミナデータで修正し、さらに、ScaffoldのギャップをPB-Jellyで埋めて、2,529本のScaffoldにしてゲノムの95.2%をカバー。


Sakai et al.,(2015)
こちらは、Roche+Illumina(Assembly_1)、Illumina Only(Assembly_2)、PacBio Only(Assembly_3)のアセンブリ結果それぞれで、ゲノムの何%をユニークな配列が、リピート配列が、ギャップが占めていたかを表したグラフです。
ショートリードのアセンブリが、全体に占めるギャップの割合が多く、リピート配列の割合が少ないのは理解できます。
しかし、ユニークな配列も、ショートリードのアセンブリでは、PacBioアセンブリに比べて少なかったのは意外です。
ということは、ショートリードアセンブリでは、リピート配列以外のユニークな配列でも、取りこぼしがあったということ。
PacBioロングリードで読んで、初めてわかったことです。

いずれにしても、PacBioで作成した染色体配列は、これまでのどの配列よりも高精度で、リファレンスとして使用できるレベルになりました。

この論文の良いところは、「PacBioすげー!」だけではなく、PacBioだけでアセンブリしてつまづいた(結構エラーがあった)ところを、どうやって修正していったか、をこと細かに書かれていること。
メーカー側にいると、つい「PacBioだけでアセンブルは完成できる!」なんて言ってしまいがちなんですが、まあ、バクテリアならそうだったかもしれません。
でも高等生物はずっと複雑。
PacBioを使えば、すごい結果が良くなるのは確かだけれど、もうひとつ上のレベルの精度を目指すなら、ショートリードもちょっと必要だということです。

このプロジェクトはP5-C3ケミストリーでシークエンスされたので、P6-C4で読んだらもっと精度は高かったかもしれませんね。
野生種のシークエンスプロジェクトにも期待しています!

最後に、
論文の謝辞に入れていただき、ありがとうございます。


ーーーーー
論文の著者でもあります、坂井さんは、2月23日に秋葉原で行なわれる「第二回PacBio現場の会」ワークショップセミナー でお話します!



2015年12月5日土曜日

分生が終わって

「今年の分生は長かった」というのは企業のひとならみんな思ったはず。
先ずね、展示会の前日には搬入&ブース設営というのがあるんですよ。
ブースの基礎は私たちが来る頃にはできているんですが、展示してみてから、「やっぱりちょっと暗い」とか、「この壁が寂しい」とかあるもんで、そういうときは照明追加したりカタログラックを増やしてみたりするんです。
で、まあ何とかブースが出来上がって、その日の夜は呑みます。

翌日から展示会は開始。午前10時~午後6時45分まで。
午前10時からというのはありがたいですが、午後6時45分までというのが結構長い。
ほとんど立ちっぱなしですからね。

今回は、Sequelのお披露目ということもあり、たくさんのお客さん(PacBioを知っているひとも知らないひとも)が来てくれました。
喋りすぎてか喉が痛い。

最終日も午後6時45分までポスターがあって、その後7時過ぎからブースの片付けが始まります。
片付けは慣れれば結構早く終わるものですが、運送業者さんが準備できるまで待ったりしないといけません。

今回の分生では、4日は展示が無かったのですが、せっかく中に入れるバッジをもらっているので通常参加してきました。

9時からは「感染を制御せよ!微生物と宿主の”覇権争い”生物学」ワークショップに参加。
菌、原虫、ウイルスなどからの感染をいかに防ぐか。それぞれの生物の専門家がいろんな角度からアプローチしている様子は刺激的でした。演者の発表の仕方も素晴らしかった。

マラリアって今もワクチン無いんですね。知りませんでした。
蚊から感染して、原虫が肝臓に達するまでわずか10分。60時間後には虫の数は3万倍に増える!早ければ感染して1週間後には死に至るという。
なんて恐ろしい病気なんだ。
でも、肝臓を目掛けて移動する原虫の、移動メカニズムの仮説は面白かった。

昼からは、一般演題。ちょっとテーマが???かな、というセッションに入ってしまった。眠くなったら他のセッション会場に移る。
そんなことをしていました。
学生さんの発表は見てて初々しいですね。何度も練習したんだろうなあ、という教科書のようなプレゼン。

他人のプレゼンを見るのは好きです。
内容はともかく、発表者の人柄が現れるプレゼンは、見ていて楽しい。
もちろんそういう発表は、概して内容も良いものです。

来年の分生は横浜です。
再来年はまた神戸だそうです。
パシフィコ横浜は展示会場が1つなので嬉しい。

さて、来年、第二回「PacBio現場の会」を予定しています。
日時は、2016年2月23日(火)
場所は、東京秋葉原UDX

今回もおよそ100人程度の参加を見込み、アメリカからも演者を招きます。
PacBioユーザや共同研究者のかたからの発表があります。
ランチ付きで、参加費は無料、基本的に誰でも参加OK(ということは競合他社も排除しないということ?)
Seqeulのデータも公表する予定です。

参加フォームは、ウェブサイトが出来上がったらこのブログでもお知らせしますし、NGS現場の会のメーリングリストでもお知らせします!

尚、現在この会で発表してくださる方を募集しています。
約25分、PacBioに関すること、ウェットまたはドライの研究発表です。
共同研究でPacBioを扱っている方、受託で読んだ方。是非PacBioのコミュニティで発表し合いませんか?
私どもからも、何人かの方にはお声をかけます。
あと数名、演者が増えたらいいなあ、と思っていますので。



2015年12月1日火曜日

Sequel 日本初上陸!

皆さん、今日から毎年恒例、分子生物学会が始まります。
今年は神戸です。

そこで何と、我らが新型シークエンサー、「Sequel」のデモ機を展示します。
直前までアナウンス無しですみません。
この機械、ちょっと前まで、スペインの展示に使われていたので、正直、ちゃんと届くか不安だったんです。
でもギリギリ間に合いました。

こんな大きな箱に入って運ばれてきて、

よいしょ、っと。
そーっと、取り扱います。

設置完了!

ま、これは展示用ですので、中の精密装置は抜いてあります。
でも何となく、雰囲気は味わって頂きたいと、今回、展示しました。

みなさん、見に来て下さいねー
2号館です。
トミーデジタルのブースです。
トミー精工のブースと一緒です。
隣には新型遠心機、大ヒット商品のオートクレーブ洗浄液もありまーす!




2015年11月6日金曜日

SequelとRSII、コスパはどうか? とあるブログのレビュー

私が愛読しているブログに面白い記事がありました。
「PacBioでMicrobeをシークエンスするコスパは?」
(原文:The economics of PacBio sequencing a microbe

JGI(Joint Genome Institute)ではPacBioとHiSeqを保有しています。
そこでは、バクテリアや少し大きめ真核生物ゲノムをシークエンスしています。
早くからPacBioRSを導入しただけあって、いろんなプロトコル開発などにも協力してきたみたいです。

さて、バクテリアや真核生物ゲノムのドラフトを決めるのに、全部PacBioで読んでしまえば、それは精度の高いものができるはずですが、コストがHiSeqと比べてまだ10倍するそうです。
ですので、ラフでも良いものや、単純なゲノム構造の生物は、2x150bp, 275bpインサートライブラリを、Illumina 1T HiSeq 2500で、バクテリアは48x のマルチプレックス、真菌クラスは8xのマルチプレックスで読んでいると。

もちろん、GCが極端に多かったり少なかったりするゲノムの場合、ショートリードだけではつながらないので、そこでPacBioの登場!
例えばGCが70%を超えて、数キロにわたる長ーいリピート配列を含む放線菌の場合、ライブラリを作ってAMPureビーズによる10kb以上のセレクションを行い、PacBioRSIIで読めば、たいてい2-3個のSMRT Cellでゲノムアセンブリは完了するとのこと。
この辺は我々の認識とほぼ合ってます。
JGIは昨年度、250株ほどを読んだらしいです。今年は500株にのぼるとのこと。

真核小型ゲノムの場合、5個のSMRT Cellでおおよそ40Mbのハプロイドであれば、かなりちゃんと読める模様。
10kbのAMPure精製カットオフをしたシークエンスということですから、妥当な数でしょう。
今期はBluePippinを購入、20kbライブラリプロトコルでもっと複雑なゲノムにも挑戦です。

さて、真核で小型ゲノムでは、4kbのメイトペアライブラリを作製し、ALLPATH-LGでアセンブルする方法もとっているそうですが、バクテリアではそれをしていない。
なぜかと言うと、メイトペアライブラリを作るコストと、PacBio RSIIで1セル読むコストがほぼ同じで、かつPacBioの方がアセンブリ結果が良いから、だそうです。
同じ理由で、今後は真核生物でもPacBioだけで読むことになるらしい。

さて、コストと言えば、新型機種・Sequelシステムは、ランニングコストはRSIIの2~3倍、と先のブログには書いてあります。
日本定価ベースで比較すると、SequelのランニングコストはRSIIの1.6倍~3.6倍です、
これにはサンプル調整からシークエンス消耗品まで全て含んだ、より実感に近いのランニングコストでしょう。

ま、2~3倍というのは間違いではないですね。
Sequelの場合はセルが高価なので、セルが増えれば、コストは上がります。

但し、Sequelのスループットは公表値でRSIIの7倍
ギガベースあたりのコストはSequelの方が4倍~8倍安くなる計算

安くなるとは言っても、スループットが多いというのもまた、微生物やっている研究者には考えもの。
というのも、バクテリアでゲノムサイズが5Mb 程度で、今までRSIIでセル1個で読めていたものを、わざわざSequelで読むかという問題があります。

ここも日本定価で換算すると、RSIIで3個のセルを読む場合と、Sequelで1個のセルを読む場合と、ほぼ同じ(まだ若干Sequelの方が高い)です。
なので、RSIIでセル4個以上でないと読めないくらい複雑なゲノムであれば、Sequelで読んだほうがお得感が感じられるかもしれませんね。

それでもまだオーバースペックであれば、バーコード(マルチプレックス)という方法があります。
先のブログでは、例えばRSIIで1セルで十分読めるようなバクテリアのライブラリの場合、7種類のバーコード付きライブラリをSrequelのセル1つで読めば(7倍のスループットなのだから)、コストを大幅に抑えられる、というような文章があります。
ちょっと誤解があるのですが、バーコードを付けると、リードの出力は減ります。

バーコードは、2本鎖DNA(インサートDNA)の末端とヘアピンアダプターとの間にあります。
ですので、シークエンスが始まってから、アダプターまで届かなかったリードはそもそもバーコード配列が読まれません。それらはポリメラーゼリード、サブリードとしては出力されますが、バーコード配列を基準に分けることができない。
これはライブラリが長くなればなるほど、バーコード配列まで読まれないリードが多くなる、ということを意味します。
今は、デノボアセンブリ用のアダプターバーコードは、10kbライブラリ用で使うことを推奨しています。 しかーし、それでもバーコード認識できないリードが、多くて全体の50%ほどあるかと思います。(平均リード長=10kb なので)

そんなわけで、どうしてもオーバースペックに感じられる場合は、バーコード無しで複数ライブラリを混ぜてシークエンスし、後で一緒にアセンブルする、という少々乱暴なやり方も存在します。

この方法は、サンプル間のゲノム配列が全く異なる場合にのみ有効です。
相同性が高い株同士を一緒にアセンブルすることは、ミスアセンブルを導くだけなのでやめたほうが無難。
JGIではそのようなことが議論されていたようです。
私も今年の春に、海外のユーザで同じように、完全に異なるBACをバーコード付けずにシークエンスして、完全に元通りにアセンブルが再現できた例を聞きましたし、
PacBioのUS本社でも半ば常識のように話されていた記憶があります。

いずれにしても、Sequelは、出力データ量(正確には塩基数)が7倍ということですので、小さいゲノムをアセンブルするときには工夫する必要がありそうです。
データ量が様々なサイズのセルが出てくれれば良いですね。


ついでに記しておくと、先の引用ブログの、装置の値段は正しくありません。
300kドルというのは間違い。そんなに安かったら嬉しいですけど。


2015年10月10日土曜日

ASHG2015

-------以下の記事に誤字・脱字がありましたので訂正するとともに、最後のほう、少し文章も変えました------

今年もアメリカ人類遺伝学会に行ってきました。
場所はボルチモア。ここは、歴史があるきれいな街並みでした。
夜は気をつけないといけない、のはアメリカの都市ならでは、かな。

さて、今年もいろいろ話題はあったと思いますが、私が気になったのは、いよいよNGSが臨床に現場に使われてきたということ。
2、3年前から何となく、クリニカルシークエンスとか言われていましたが、やってみて、いろんな問題点が見つかった。
そのひとつは、ゲノムのリファレンス配列が無いということ。

人種ごとのリファレンスが無い。
これは今までも言われてきたことですが、研究ではなく、クリニカルに用いるためには、高精度のリファレンス配列が必要です。
そのための技術、が、3年前は無かったに等しい。

そして今、ようやく技術が出揃ってきて、ヒトのハプロイドゲノム(いわゆるプラチナゲノムCHM1とかCHM13とか)や、Diploidゲノムのリファレンス作りが可能になってきました。

今回、高精度のリファレンスを作ろう! というときに必ずといって良いほど出てきたテクノロジーが、PacBioとBioNano
これは前にも書きましたが、

  1. PacBioで読んでアセンブルして、
  2. できたContigとBioNanoのMapデータをHybrid Assemblyして、
  3. すごく長い、Scaffoldを作り、
  4. さらにPacBioでGapを埋めて
  5. プラチナレベルのリファレンスを作る
というものです。
これをやろうとすると、どれだけ読めば良いか?
いくつかセッションを聞いた話や、実際PacBioやBioNanoの方とディスカッションして聞いたところ、
PacBioは30x~60x
BioNanoは60~90x

これくらい読めば、高精度の長いアセンブリ(一例としてはCHM13の場合、Contig数254、N50=20.79Mb、最長Contig=83Mb)が実現できるとのことです


まさに、シークエンスとPhysical Mappingの融合
PacBioもシークエンスレベルでは素晴らしい成果を出します。
でも、100kb以上の大きなSegmental DuplicationやInversionはさすがに読みぬくことは困難。
そこで、Physical MappingのBioNanoの登場、というわけです!

上記のスライドは、BioNanoのディナーパーティにて発表されたプレゼン。
Physical Mappingがゲノム決定にいかに大事か、ということがわかりました。

間もなく、世界のいろいろなところから、人種ごとのリファレンス、それもかなり高精度のリファレンスゲノムが発表されるでしょう。プラチナレベルで。
やっぱり大事なんですね、ゲノムは。
日本でも大型ゲノムを、PacBioとBioNanoを駆使して、ハイブリッドアセンブリした発表が出ないかなあ、と思う今日この頃


さて、PacBioのブースは最近4年間のASHGで一番大きなものでした。

初日は、PacBio創始者の1人、Steve Turner氏、PacBioのCEO Mike Hunkapiller氏、も勢ぞろい。ブースは常に人大杉状態!

そんな中この、新型マシンの問い合わせはひっきりなしでした。
あ、そうそう、BioNanoのIrysも、スループットが2倍になったそうです。
これで、PacBioのデータとBioNanoのデータを使ったHybrid Assembly の解析を誰でもできるようになったということ。
じゃあ、実際解析はどこでどうするの?

そんなときは、DNANexus !!

このクラウドソルーション型のNGS解析サービスは、既に、PacBioとBioNanoのHybrid Assemblyパイプラインを装備。
クリック&ドラッグ、ボタンをぽち
これでヒトのアセンブリ→BioNanoとのアセンブリ、バリアントコースまでが、2週間で終了!!!だそうです。

すごくないですか? 計算資源で困っている方はこういうクラウドサービスを利用するもの手ですね。
私もDNAnexusの方に知り合いは多いので、何かあれば連絡下さい。

他にも解析サービス会社はあると思うので今度シェアします。

あーあ、来週は日本での人類遺伝学会か。
Sequelの日本での反応はどうかな?
私は2日目から本格参加します。
15日はBioJapanのほうに出ます。
こちらでも、PacBio関連の発表がありますよ。
BioJapanに行かれる方は、是非チェックしてみて下さい。


2015年10月5日月曜日

40kbライブラリ&6時間シークエンス最強説

「40kbライブラリと6時間シークエンス」で、驚きのアセンブル結果!
本当は10月最初の話題はこれにするつもりだったのですが、新型機械の発表があったもんだから、インパクトに欠けてしまいました。

でも、8月に実際シークエンスをしてみて、アセンブルしてびっくりしたのでせっかくだからシェアします。
(公開にあたりサンプル提供者の許可は得ています)

このサンプル、腸管出血性大腸菌O111は、ゲノムの中に20kb~30kbのリピートが多く、ショートリードではアセンブルがとても難しい。
PacBioでも、一昔前の酵素では、同じように複雑なゲノムであるO157:H7ゲノムは200カバレッジで読んでもContig数は9本でした。
(Koren S., et. al. (2013) Reducing assembly complexity of microbial genomes with single molecule sequencing. Genome Biology, 14:R101 Table 3)


そんなところに、この度、最長Movie時間が4時間から6時間にバージョンアップ!
6時間シークエンスということは、超長いライブラリを作成すれば、長いサブリードが得られ、結果アセンブル結果も改善できるはず。

ということで、

  • 40kbライブラリを作製
  • サイズセレクションをよりシビアに
  • 4時間または6時間でシークエンス

を試しました。

40kbライブラリを作製するには、それなりに長くゲノムを切ることが必要。
今までのG-tubeではなく、Megaruptorという機器を使って切りました。
Megaruptorについてはこちら

この機械で何回かテストカットして、Pippin Pulseに流して確認。
本番カットでゲノムを40kb Shearingしたら、PacBio SMRT bellライブラリ作製へ。

ライブラリができたらおなじみBlue Pippinを使ったサイズセレクション
普通は7kbカットオフとか10kbカットオフとかを行なっていますが、ここでは17kbカットオフをした。
17kb未満のサイズのライブラリを捨てて、それ以上の長いライブラリだけを回収するというわけ。

さて、そのようにしてできたライブラリを、4時間と6時間でシークエンスしたら・・・

リード数は4時間より6時間の方が多いですが、これは偶然でしょう。
平均リード長は、4時間が9kb、6時間が10kb
平均サブリード長は、4時間が8kb、6時間が8.7kb
すごく長いというわけではないけれど、20kb、30kb超えのサブリードも結構ありましたので、これでHGAP3アセンブルを試みた。

Contig数はどちらも4本
最長Contigはどちらも5.32Mb
6時間Contigの配列でDot Plotを作ってみると、確かに、20kbから30kbの長さのリピートが多く含まれていた。
おおーっ!すごい!

6時間で作ったContigに、再度サブリードをマップして作られた、カバレッジグラフを見てみると、染色体5.32MbのContigは、60カバレッジ~140カバレッジであることがわかりました。
カバレッジが高い場所は、ORIであるかも知れない。
ほかのContigは、プラズミドかな? これはその道の専門家に調査をお願いしています。


さて、結果としては、4時間でも6時間でも、このゲノムの染色体はつながりました。
ちゃんと精査する余地はまだ残っているとしても。


せっかくなのでもっとすごいリード、サブリードの例もお見せします。
これは別の大腸菌です。

リード数も6万本、7万本と、さっきの株より多いけど、リード長はもっとすごい。

平均リード長は、4時間が15.6kb、6時間が18.2kb
平均サブリード長も、4時間が13.2kb、6時間が14.4kb

もちろんこのデータでも、染色体ゲノムのアセンブル成功
20kbのリピートも何のその! です。


もちろん、このようにサイズセレクションをシビアにすると、捨てられるDNA量も多いですから、最初に用意すべきDNA量は大変多い(10マイクロ~30マイクログラム)です。
これがネックでしょうね。少量DNAからもこのような長いライブラリを作れたら良いのですが。



2015年10月1日木曜日

PacBio 新型シークエンサー Sequel System

皆さん、驚かれるかも知れませんが、PacBioの新型シークエンサーが発表されました。

私も全く知らなかった。
本当にサプライズ。
PacBio本社でも、知っているひとは限られていたそうです。

ついこの間まで、PacBioの誰もが「PacBioはあの大きな装置、RSIIを、これからも売っていく。小型シークエンサーは出ない」って明言していましたから。
 私もそれを信じて、あちこちで「新型装置は出ない」って言ってきたので、結果として嘘を言っていたことになり、申し訳ないです。

とは言っても、MiSeqくらいの大きさ・・・というわけではないようですね。まだでかい。
横に立っている女性、背が高いです。
装置の大きさは幅x奥行きx高さが、36.5 in x 34 in x 66 in(168 cmくらい)
重さは381kg
今までのRSに比べると確かに小型です。軽乗用車サイズから冷蔵庫サイズに、なった感じ。
デザインは・・・ ちょっと・・・ まあ、いろいろあると思いますがあえて言いません。

プレスリリースはこちら

では今までのRS IIとどう変わったのか?
SMRT Cellが大きくなりました。大きさにして約4倍、ZMWの数は約100万
ここから出力されるリードの本数は、今までと比べておよそ6~7倍

リードの長さやMovie時間はRSIIと変わらない予定です。
1セルあたりの出力塩基数は~5Gb(うまくいけば10Gbも?)
最大16セルまで1ランで使用可能

SMRT Cellが大きくなったということで、今までは8セルが1本のStripにまとまっていましたが、Sequel Systemは4セルで1本です。
これを最大4本、装置にセットすることができます。(合計最大16セル)

Sequel Systemでできることは、
デノボアセンブリ、Iso-Seq、ロングアンプリコン、Methylation解析、というふうにRSIIと同じです。
サンプル調製も、一部はRSIIと同じキットを使い、一部は特別のものを使う、というふうに分かれています。
窒素ガスはRSII同様、必要です。

この機械の、前面の黒いところは、スライドして下に降りるようになっています。
すると、中からロボットと試薬セットを置く台が現れます。
ここでユーザが、SMRT Cellをセットしたり、キットやチップを置いたりします。
スライドを閉めてから、上段右のタッチパネルで操作します。
Real Timeでシークエンスが始まり、データはこの装置の下のほうにあるサーバで、ベースコールされます。

ベースコールされたデータは、ユーザのサーバに転送されるか、USB3.0でユーザが抽出します。
データ解析はRSIIと同様、SMRT Analysis 3.0 を使います。
あ、SMRT Analysisは次に3.0になります。ちなみに3.0はRSIIのデータも解析できますのでご安心を。

Sequel Systemを使えば、うまくいけば、30xのヒトゲノム・90Gbを、1回のランで得ることも可能。
それも平均10kbの超ロングリードで!!



今年のASHG(アメリカ人類遺伝学会)の大きな目玉になることは間違いない!

そもそも、どうしてこんな製品が突然出てきたのでしょうか?

ご存知の方もいると思いますが、PacBioはRocheと共同で、Roche向けの診断用NGS装置を開発するという契約がありました。以前ここにも書きました。
この装置も、Roche次世代シークエンサーの開発の過程で作られたものだそうです。
極秘裏に開発されたのも仕方が無い。

こちらSequel Systemは、Research Onlyなので、Roche向け診断用NGSとは、別物です。
診断向けNGSについては、Rocheさんにお問い合わせ下さいね。


肝心のデータですが、実は、まだオープンにできるものはありません。
現在、本社でサンプル調製の最適化と共に、良いデータ出しをしているところだと思います。
乞うご期待!

価格は来週決まりますので、お問い合わせはトミーデジタルまでお気軽に!


しかし、当然ですが、気になるのは今後RSIIの運命はどうなるのか? ということですよね。
先ほどのプレスリリースによると、RSIIの試薬の開発・サポートは続くとのことです。
これは信じる。

それに、RSIIは販売してから歴史があるので、トラブルシュートの経験がある。
新しいSequel Systemよりは安定してデータを出してくれるでしょう。 
しばらくは共存していくと思います。 

来週アメリカに行くので、いろいろ突っ込んで聞いてきます。



あーあ、それにしても、あちこちで「新型機械は出ない!」って言ってきたなあ。 やばい。
サプライズとしては良いかも知れないけれど。
出るとわかっていたらもっと嬉しかったかも知れない。そう思う社員は、PacBio本社の中にも多いと思う。
まあ、この業界では良くある話ですけどねえ。

良いニュースとして、前向きに考えることにしました!

2015年9月23日水曜日

Flatwormは再生医療に役立つか?

この仕事をしていると、いろんな生物を研究しているひとと出会うんですね。
初めて知る生物の名前や、今まで誤解していた生物など、結構あるものです。
例えば、ナメクジウオ
名前から、魚なのかと思っていましたが、とんでもない。
頭索動物、という仲間で、脊索はあるけれど脊椎は無い。
つまり脊椎動物と無脊椎動物の分岐点に位置する動物というわけで、進化の研究に重要な生物だそうです。

ほかにもたくさんありますが、それはまた今度の機会に。
今日は、Flatworm(扁形動物)という生物の話です。
プラナリア、ヒラムシ、サナダムシの仲間というだけで、気持ち悪ぅー、と思ったあなた。
あなたはこの生物がどんなにすごいかを知れば、絶対考えを変えるでしょう。

切っても体が再生するんですよ!
ザリガニは足が再生しますがそんなものではない!


http://www.macgenome.org/animal.html より
今日紹介する論文はこちら

Wasik et al., (2015) Genome and transcriptome of the regenerationcompetent flatworm, Macrostomum lignano. PNAS

M. linganoという生物、こいつは切っても完全に再生するそうです。
細胞の自己再生、組織の再生の研究にはもってこいというわけ。
そこで、Cold Spring Harbor Laboratory のMicheal Schatz博士らのグループは、この生物のゲノムとトランスクリプトームを読んで、組織再生の謎に迫りました。

PacBioが活躍したのは、ゲノムアセンブリ。
M. linganoのゲノムはK-mer (23-mer) 解析から700Mbと想定。
全ゲノムの70%がリピートでトランスポゾン配列が多く、2n=8本の染色体はChromosomal Duplicationもあるとされ、当然ながらショートリードではまったくつながらない。

そこで、PacBioロングリードの登場!
ゲノム配列を10ug用意して10kbをターゲットにg-Tubeで切断、その後SMRT bellライブラリを作製し、6kb~15kbでサイズセレクションしたあと、P4C2またはP5C3でシークエンス。
試薬のバージョンからして、実験は昨年されたのでしょうね。

130x分のシークエンスデータを得た後、エラー補正を施し、実際アセンブルに用いたのは10kb以上の補正後リード21x分。
そうして、N50=64kbのContigを得た。64kbというのはこれまでの222bp(ショートリードでのアセンブリ)に比べると、大きな進歩。

次に彼らが行なったのは遺伝子アノテーションと、発現解析。
発現解析はIlluminaで行なっていますが、まあ、これはこれとして、リファレンスContigができたおかげですから。

山中ファクターとしても有名な、Oct4/Pou5f1、Nanog、Klf4、c-Myc、Sox2遺伝子は、組織再生の重要ファクターです。
この生物では、Sox2以外の遺伝子発現は見られなかったものの、哺乳類の幹細胞メインテナンスに必要な、Jak-Stat、Wnt、MAPKパスウェイは保存されていたそうです。

そのほかにも、組織が再生される過程を示すパスウェイや特定の遺伝子発現などが、哺乳類のそれと、似ているところ、似ていないところ、が示されました。
まだわからないことは多いけれど、なるほど、気持ち悪い生物も結構我々と共通するところあるんだなあ、と思いましたね。
気持ち悪い生物、と言ったら失礼か。

個人的には、できればIso-SeqをP6C4でもやって欲しい。
もうやっていたりして。



2015年9月19日土曜日

PacBioでHLAシークエンス

先日、水戸で「日本組織適合性学会大会」があり、行ってきました。
以前からPacBioでHLA遺伝子をシークエンスしている先生の発表があったのと、この業界についてはほとんど素人だったので、勉強もかねて。学会についてはこちら

この学会では、輸血・臓器・造血といった、移植全般の「組織適合性」に関して、大学研究者から医療関係者、日本赤十字、現場のティシュータイパー、といった方々が集まって最新の技術を発表したり、現場の問題点を提起したり、活発に議論が交わされていました。

企業からもタイピング受託会社や、タイピング装置やキットの輸入商社、メーカーなどが参加。
学会の規模は、そうですね、実感としては「ゲノム微生物学会」くらいの大きさかな。

さて、HLAについて、もし基礎的なバックグラウンドを知りたいかたは、先ほどの学会ホームページのここがとても詳しいです。
私もこのページで勉強しました。

ざっくり言うと、移植のときなどにドナーとレシピアントとの間で、適合するかどうか、は、HLAという遺伝子のSNPの型で決めるんです。
ひとつの遺伝子にSNPがいくつもあって、その組み合わせで、何千通りというハプロタイプができる。
HLAはA、B、C、DRB、DQB、DPBなどなどいくつかあり、タイピングに用いられる遺伝子はだいたい決まっています。

その遺伝子のSNP型を、ビーズ、PCR、またはシークエンスで判定するということ。

今、HLAタイピングの主流はビーズです。
その理由は、①簡単、②低コスト、③世界中でバリデートされている
から。
ビーズで検出すると、同じ遺伝子上でも離れた場所にある2つのSNPのハプロタイプはわからない。
これをAmbiguity問題、といいます。
シークエンス法に比べると、精度は落ちる。

GenDX社のウェブサイトから
シークエンス法の場合、先ず一旦遺伝子の全長、または変異の高い場所をPCR増幅します。
プライマーはもちろん保存された領域に設定される。
このプライマーでちゃんと増えたら、次に断片化する。
断片化した後、シークエンスする場所を濃縮するか、あるいはそのままシークエンスする。

あれ? 何で断片化するの?
と思ったかた、あなたの頭はPacBio向きです。

PCRで増幅したHLA遺伝子は、だいたい4kbから10kbかそれより少し長いくらい。
PacBioならそのまま読めますよね。
そうです。読めます。
断片化するのは、ショートリードのときだけ。

NGSとHLAタイピングをもっと詳しく知りたい!という方はこのレビューがおすすめ

Hosomichi et al., (2015) The impact of next-generation sequencing technologies on HLA research. J of Human Genetics.

HLAタイピングの方法、ソフトウェアの種類、長所短所などがまとめられています。

シークエンスされたデータは、IMGT/HLAデータベースに登録されている各HLA遺伝子の配列にマッピングされます。マッピングのアルゴリズムは、ツールごとにいろいろあるようです。
有償ソフトウェアなどは各社独自のマッピング方法を開発して、精度を上げています。
そして、アレルごとにコンセンサスを出して、アレルの型を決める
Hosomichi et al. (2015)

PacBioの場合も、長いリードで遺伝子全体を読みますが、そのあとデノボでクラスタリングをつくり、アレルごとにコンセンサス配列を作ります。
先にデータベースにマッピングするのではなく、アレルごとの遺伝子全体のコンセンサス配列をつくってから、データベースを参照して型を判定するのです。
(正確には、遺伝子全体を読むのはClass Iと呼ばれる比較的短い、とはいっても5kbくらい、の遺伝子。Class IIと呼ばれる遺伝子群は、10kb以上あるが、それくらい長いとPCRすること自体が難しい。そこで遺伝子の一部を増幅することが多い)


このように、NGS、特にPacBioで読めば、Ambiguity無しに、正確なHLA型を判定することが可能です。
でも、タイピングにかかるコストは若干高め。
ライブラリ作製にかかる手間は、ビーズ法に比べれば、かかる。これは認めます。

では、どういう場合に、PacBioがHLAタイピングに使用されているのか?

アメリカには、Histogenetics社という、HLAタイピングの専門会社があります。
この会社はMiSeqを47台、PacBioを1台保有し(もちろんキャピラリーはたっくさん保有)、Sequence Based Typing (SBT)をガンガンやっています。
顧客は主にNMDP(National Marrow Donor Program)のようなバンク。
MiSeqを使ったタイピングでもキャピラリーを使ったタイピングでも、データベースに合わなかったり新規の可能性があるような場合、PacBioの登場。
昨年はまだ慣れていなかったテクニシャンも、もうPacBioかんたーん!って言っているそうです(Histogenetics社のCEO曰く)。
タイピングの方法も、自分たちで作ったデータベースに独自のプログラムを使って、行なっているとのこと。
ここはPacBioでのHLAシークエンスに一番ノウハウがあると思いますが、いかんせん、企業なので情報はあまり出てこない。

では、イギリスのAnthony Nolanはどうかな?ここは公共機関。論文もあります。
Mayor et al., (2015) HLA Typing for the Next Generation. PLOS One.

新しいアレルも発見されています
Hayward et al., (2015) The novel HLA-B*44 allele, HLA-B*44:220, identified by Single Molecule Real-Time DNA sequencing in a British Caucasoid male. Tissue Antigens.

人類遺伝学会などでも関連する発表がありそうな予感。
PacBioの可能性が試されるときです!



2015年8月17日月曜日

ところで最近cDNAシークエンスはどうなった

アイソフォームシークエンス、通称 Iso-Seq
これは以前もこのブログで紹介しました
ところで、良くある質問が、どれくらい読んだら十分か、というもの。
転写量が低いアイソフォームも高いものも、まんべんなく検出するには、何セル読んだら良いのか?

簡単なようで難しい問題です。

これは逆に出力から考えた方が良さそうです。

1つのSMRT Cellから出力されるリード数は、およそ6万本。
1本1本が独立のアイソフォーム配列由来です。
ReadsOf Insert、別名CCSですが、これがちゃんと全長cDNAをカバーしているかどうかが大事です。
ここで全長というのは、逆転写酵素で転写産物を復元した後、PCR増幅するときのPCRプライマー配列が、シークエンスされた後のReadsOf Insertで、5’側と3’側にちゃんとあることを言います。

つまり、長いアイソフォームほど、全長読まれる確率は低くなる
設定するReads Of Insetのパス数は、アイソフォーム配列の精度に影響する
では、出力されるReadsOfInsertのうち、どれくらいが全長読まれたものなのか?

先月のユーザーミーティングでは、いつくかIso-Seqの発表もありました。
その中のひとつでは、3パターンでサイズセレクションをしていて、そのうち完全長cDNAだった割合は、

  • 1-2kb:50%(1セル6万本出力と仮定すると、3万本)
  • 2-3kb:30%(同18,000本)
  • 3kb-:20%(同12,000本)

というふうに、転写産物の長さが長くなるほど、完全長アイソフォームの数は少なくなりました。
当然といえば当然。

他の発表でも、サイズセレクションのデータは無いけれど、8セル使ったIso-Seqの実験で完全長は21万本。
64セル読んだときは完全長cDNAは100万本(全体のリード数は470万本)だったそうです。

このような数字が、自分の目的に合うかどうか?
で、計算してはいかがでしょうか。

しかし、完全長cDNAといっても、もしかすると5’側の配列が欠けていることがあるかもしれません。
これは逆転写酵素Takara-Clontech SMARTerが、最初に転写産物の5’キャッピングをしないことが原因です。
5’側まで行かなくてもcDNAが完成してしまうため、ある程度、完全長では無いcDNAができてしまいます。
その後PCR増幅するときに使う5’と3’のプライマー配列が、シークエンスで読めていれば、Iso-Seqでは完全長cDNAと言います。
ここ、気をつけて下さい。


もうひとつ、その昔、Iso-Seqが開発途中だった3年前の話です。
転写ノーマライゼーションというものがありました。
これは、転写量が高いアイソフォームばかり読めてしまって、転写が低い産物がなかなか読めないことを防ぐために考えられたプロトコルです。

カムチャッカカニから抽出したDuplex-specific nucleaseDSN)を使用した方法で、原理としては以下のようなもの。

  1. 一度cDNAをDenatureしたあと、Renatureする→ Abundantな転写産物ほど二本鎖に戻りやすいはず
  2. 二本鎖DNAを特異的にHydrolyzeする酵素(DSN)で処理する→ Abundantな転写産物ほど優先的に分解される
  3. 転写レベルが低かったcDNAが分解されずに残る
    → これでライブラリを作ることで、レアなcDNAも少ないセル数でシークエンスすることができるし、高発現だったcDNAは、2のところで分解されてライブラリにならないはず


しかーし、結局公式プロトコールにはならなかった。理由は以下の通り
  • cDNAを一旦Denatureした後、二本鎖にする段階で、長いcDNAほど、同じ配列(ドメイン配列など)を有する他のアイソフォームと非特異的に二本鎖を形成する確率が高くなる
  • 長いcDNAは、それが例えレアな転写産物であっても、非特異的Renatureを作りやすいことで、結果DSN分解(hydrolysis)されてしまう
  • ノーマライゼーションステップには、追加でPCR増幅が必要なため、さらに増幅バイアスが生じる(Iso-Seqは2回、PCR増幅しますので、ノーマライズするときは合計3回のPCRが必要になる)
これらを考えて、海外のあるユーザは、2kb未満の比較的短いcDNAに対してのみ、ノーマライズ処理をしているそうです。
短ければ非特異的Renatureはある程度防げるだろう、という考えです(増幅バイアスはかかりますが)。

とは言うものの、PacBioとして公式に勧めているプロトコルではありません。自己責任です。
酵素自体はEvrogen社で販売されているようですね。

じゃあ今はどうなんだ? と聞かれそうですが、今もノーマライゼーションは公式プロトコルにはありません。
転写産物の高いものだけを、読む前に減らす方法は難しいのかな。


2015年8月8日土曜日

DNANexus

「猛暑日」
日中の最高気温が35度を超えるとこう呼ばれますが、東京は今日8月7日で、1週間連続の猛暑日だそうです。
5年後の東京オリンピックは8月6日から。こんな暑い中、屋外競技は厳しいだろうなあ。
何かと話題の新国立競技場も、東京ドームみたいに、完全エアコン&屋根付きにすれば良いけど。
そうなったら建設費はいくらになるのかな?
ちなみに東京ドームができたのは1988年。バブルの真っ只中、建設費は350億円だったそうな(ここにまとめあり

さて、私がいまバイオインフォ関連で気になっているのは、前回も紹介したDNANexusという会社。
ここはGoogle Ventureも出資しているアメリカの会社で、クラウドでの解析パイプラインがメインです。
この会社は、FalconによるPacBioデータのアセンブリパイプラインを提供しています。
先月のPacBioユーザーグループミーティングでも発表していました。
Falcon、ってインストールがとても複雑なんです。
環境依存が多くて、なかなか素人には手が出ない。
そもそもヒトゲノムレベルのゲノムサイズをFalconアセンブリするには、それなりのクラスターサーバーが必要。
でもDNANexusは、アマゾンクラウドを使っているので、理論的には世界最大級のスパコンを使うことができる、というわけ。

Falconアセンブリは、HGAPのようにエラー補正ステップが最初にあります。
このステップが一番計算量を消費する。

DNANexus社のスライドより
上記には、HGAPの最後のステップであるQuiverは含まれていません。
Quiverもそこそこ時間がかかります。

ユーザは、アセンブルに必要なPacBioの生データ(bax.h5とmetadata.xml)を、DNANexus社のツールでアップロードします。
あとは、こんなパイプラインをポチっと。

出力データは

  • エラー補正後の生リード(Pre-Assemblyリード)
  • Primary AssemblyのFASTAファイル
  • Alternative Contig(バブル)
  • 各ステージでの中間ファイル 
結果がまずければ、例えばステージ2から再開できるように、中間ファイルを保存しているそうです。

その後、Quiverをかける。
Quiverというのは、HGAPでも使っていますが、エラー補正をする前の生サブリードを、アセンブリ後のContig配列にマップして、生サブリードの持っているクオリティデータを使いながら、Contig配列を補正していくプログラムです。

さて、ここまではアセンブリの話。
もちろん、構造変異解析のパイプラインもあります。

皆さん、Parliamentというのをご存知でしょうか?

Parliamentとは、構造変異解析のツールで、BreakdancerやPBHoneyなどに広く使われているそうです。

Illuminaデータ、PacBioデータ、Irys、Nexteraなど様々なデータに対応します。
例えばイルミナデータとPacBioデータがある場合、数ある変異検出ツール(DellyやCNVator)で変異があっただろうとされる場所をまとめて、そこのみをローカルアセンブリして構造変異の場所を出力する。
「数ある変異検出ツール」というのを、DNANexus解析パイプラインでは、Parliamentひとつでまとめてしまって、簡潔なものにしています。
DNANexusのスライドより

今のところ、イルミナ用の構造検出ツールは数が多く、PacBio用にはPBHoneyのみしか無い。
なので、Parliamentを最大限生かすには、イルミナデータがあったほうが良いとのことです。
しかし今後は、PacBio用の構造変異検出ツールも増えてくるだろうから、期待したいですね。

---------------------ここまではDNANexusの話------------------------

さて、せっかく構造変異の話をしたので、ついでに宣伝です。

前にもお知らせしましたが、SNVとかIndelとかを見つけた後に、それがどのくらい意味があるものなのか、を調べるのは大変だけれども重要なこと。
データベースに照らし合わせてフィルタリングするのが普通でしょうが、このIngenuity Variant Analysisが追加で持っているデータベースはちょっと違う。
何百人ものPhDホルダーが、10年以上かけて文献から抽出した、パスウェイ・ネットワーク情報です。
これ自体でも価値のあるデータベースでしょうね。

このIngenuity Variant Analysisは、「変異情報から病態・疾患情報や機能・パスウェイとの関連性について、【短時間で、簡単に、信頼性の高い解析結果】を出力するツールです。



キャンペーンお申込みwebページはこちら

Ingenuity Variant Analysisについて詳しくはこちら
応募してみたいが、できるかどうかわからない方、IVAの概要説明をご希望の方は、下記までお問い合わせください!
トミーデジタルバイオロジー(株)
info_ap(AT)digital-biology.co.jp  (AT)の部分を@にして下さいね。












2015年7月18日土曜日

PacBio Asia User Group Meeting 速報


今年も、PacBioアジアユーザーグループミーティングが行なわれました。
場所は去年と同じ、シンガポールのGrand Copthorne Waterfront ホテル。
ここはANAのCAさん御用達のホテルなのです。
ANAの制服のままのCAさんとホテルのエレベーターで一緒になるとドキッとしますね。
いろんな意味で(笑)。

さて話をユーザーミーティングに戻すと、今回は第3回、参加人数は昨年の2倍近い140名!
規模が大きくなった分、以前のようなアットホームさは無くなりましたが、これも成長しているということでしょうか。

今年、存在感を増していたのが韓国チーム。
韓国からは、受託会社のマクロジェン、DNALink、バイオンフォ受託会社のChunLab、の3社が発表。
マクロジェン社は皆さんご存知、韓国人AK1ゲノムをリファレンスレベルクオリティで完成させることを目標に、HiSeq X10システム、RS II2台、をフル稼働させてシークエンスしている会社です。
AGBTのときの発表よりもデータを増やしていました。

DNALink社は、アジアで最初のPacBioを導入した会社です。ここはマクロジェンよりPacBio経験が長いので、実績は多い。
面白かったのが朝鮮半島の東西南の海岸で採取したサンプルでメタゲノム解析を行い、Pacならではのメタメチレーション解析を試みた、という話。
バクテリアのメチレーションのパターンが地域で違う、ということで、他の機械ではできない解析だなと思いました。結論をどうもっていくのか、論文が見ものです。

マクロジェンもDNALinkも、ライバル同士がお互い発表し合い、それぞれ認め合うような、そんな雰囲気でした。

もう1社のChunLabは、今月初めのNGS現場の会でも参加していましたね。
ChunLabは、バクテリアの16S配列をPacBioで完全長読んで、それをもとに種のレベルの分類を可能にする解析パイプラインを提供しています。
ここで、発表者のChun社長は、「16Sを完全長で読んだ場合、一番大事なことはPCRキメラを取り除くこと」と言っていました。
実際にPCRで全長16Sを増幅すると、かなり(多いときは20%も!?)キメラ配列が作られるらしい。
そのキメラ配列を取り除くために、既知の正しい16S配列のデータベースを整備し、その配列と比較することで確からしい配列を判別し、キメラ配列を取り除いているそうです。
確からしい配列のなかには新規の16Sがあるので、それは新たにデータベースに追加される。
そうしてどんどんデータベースが更新されて、キメラ配列除去の精度も上がる。
興味のある方はこちら
でも、アジアには競合がとても多いらしいです。

さて、そのほかにもオランダのバイオテック、Key Gene社は、4倍体の綿など植物ゲノムをPacBioでデノボアセンブリ。
マレーシア大学では天然ゴムを分解するActinomycetes(GCリッチ)をゲノムアセンブリ。
Acceligen社はLivestock(何て訳すのかな)ゲノムの話しの流れで、ヤギのゲノムアセンブリの話。
Arizona Genome Instituteからは、複数BACを一度にシークエンスした話。10個のクローンを1つのSMRT Cellでシークエンスして、10個のContigに。
使ったのはHGAP3のみでインデックス使用していないって!?
その10個がどれくらい違う配列なのか、それにもよるのでしょうが、もう少し聞きたいところ。
早く論文になって欲しい。

今回、大型ゲノムのアセンブリの発表で、BioNanoとのハイブリッドアセンブリがいくつかありました。
確実に来年は、もっと増えてスタンダードになっていることでしょう。
BioNanoは前にも書きましたが、ゲノムマッピングの情報を出してくれます。(配列をマップするの意味では無いです。地図の意味です)
そのマップ情報と、PacBioの配列情報を組み合わせれば、アセンブリにはかなり強い!
でも、やっぱりLife Is Not So Easy!!
BioNanoとPacBioのContigが矛盾することもあるそうで、そういうところは何が起こっているのか、詳しく見ていく必要があるでしょう。


お待たせしました。我が日本からは、内藤さんが登場!
140名が釘付け
Wild Vigna !  
いつものトークでアズキたちのすごさが十分伝わりました。
内藤さん、ありがとう!
最後のSexy、うけてました!

終わってからPacBio Asiaの人から、「日本人研究者って、面白くてエネルギッシュな人が、実は多い?」と聞かれました。ちなみに去年は、阪大微研の中村さんでした。
「若い研究者はね」


皆さん、お疲れ様でしたー
また来年、シンガポールでお会いしましょう!



ちなみに、ツイッターでは
#ugmAsia でミーティングの模様が若干ですが、ツイートされていました。




2015年7月8日水曜日

NGS現場の会で思ったことと、ヒトゲノムのアップデート

梅雨ですねえ。毎日雨が降っています。
そんな中、先週つくばで「NGS現場の会・第4回大会」が行なわれました。
私たちは、初日にスポンサーセッション、2日め3日めは展示会場とポスターで、楽しみながら仕事してました。

いつもプレゼンを作るとき、観客が100人、200人の場合、どのレベルに合わせて話すかで迷います。
集客をたくさん取るにはできるだけインパクトのあるタイトルと、わかりやすい内容の要旨、が必須。
現場の会で集まる皆さんは、NGSのプロから初心者、研究対象もバラエティに富んでいる。
そこで難しいのは、まず話す内容のレベルです。

PacBioを知らないひとにHGAPとかSubreadとかいきなり言っても通じるわけが無く、眠ってしまうのがオチ。
反対に、あまり初歩的な内容を話すと、今度はNGSのプロでPacBioに精通しているひとが退屈してしまう。
だからといって平均的なレベルの内容では、面白みが無い。

そう、だから、企業がやるプレゼンは大抵つまらないのです!!
みなさん、企業プレゼンで退屈した経験は多いでしょう?
そうならないために、各社、その道の有名研究者を講師に招いて、喋ってもらったりする。

企業としても研究者に喋ってもらった方が楽だし、リップサービスで自社の製品を褒めてもらえれば説得力が出る。
私も、日本進化学会とかゲノム微生物学会とかのランチョンセミナーでは、大学の研究者にお話ししてもらいましたが、「現場の会」「・・・若手の会」では私自身で喋るようにしています。

自分にとっても良い経験になります。
普段は特定のお客さん相手、または同じような研究をしている方相手の「真面目な」プレゼンが多いですが、現場の会、若手の会は、「ここまでなら許されるかな?」的に冒険できる。

ストーリーを作って、観客を飽きさせない。たまに外すこともありますが。

そんなプレゼンの中で、今回は

  • はじめに(これまでの3年を振り返り)
  • PacBioシークエンスとは(初心者向けに簡単におさらい)
  • ヒトゲノムへ与えた衝撃(最近のヒトゲノムシークエンス)
  • ターゲットキャプチャーシークエンス(NimbleGenプローブを使ったキャプチャーシークエンス)
  • 2015年からこの先の計画(さらなるロングリードを実現するためのアップデート)

の流れで話しました。

特に、発表の前日、PacBioを使ったヒトゲノムデノボアセンブリの論文がPublishされました。
これは話題に入れないとダメだ、と思い、深夜1時過ぎまでスライドを更新していました。

その論文がこれ
あの、Mount Sinaiのチームの仕事です。
2014年、アキバでPacBio現場の会、をやりましたがその時の演者の1人、Bobbyさんの講演を覚えている方は、「ああ、あの仕事がついに!」と思ったのではないでしょうか。

彼らは、今までのショートリードとPacBioリードというハイブリッドアセンブリの概念を覆す、新しいハイブリッドアセンブリを行なっていました。
彼らのは、PacBioロングリードと、BioNanoゲノムマップによるハイブリッドアセンブリ。

BioNanoのテクノロジーは今日はあまり詳しくは書きませんが、ゲノム上に特定の短い配列があるとして、ゲノム抽出後にそれを酵素が特異的に認識、蛍光を付け、そのDNAフラグメントを機械にかけて蛍光を検出します。
そうすると、ゲノム上のその特定塩基配列があった場所が蛍光でわかります。
ゲノム配列全体がわかるのではなく、特定認識配列があった場所の情報(ゲノムマップ)がわかるというわけ。

この論文を読むときは是非、Supplement 1も手元にあったほうが手順がわかりやすいです。


彼らはHapMapのDiploidヒトゲノム・NA12878を、P5-C3で合計46x読んだ。
そしてBioNanoでは80xのゲノムマップを読んだ(平均278kb)
PacBioデータはエラー補正後、Celera Assembly またはFalcon Assemblyした。
BioNanoのマップデータは一度アセンブリし、Scaffoldを作る。
そのScaffoldにCelera Assemblyで作ったContigをアラインし、Scaffoldにシークエンスデータを足す。Scaffold v1ができる。
Scaffold v1に、Falcon Assemblyで作ったContigをアラインし、Scaffold v2を作る。

こんな感じでScaffoldをきれいにしていって、ヒトゲノムを構築していった。

最終的には、Scaffoldが202本、NG50 はなんと28.8Mb!!
これは驚き、というか衝撃!

もちろんここから、構造変異を見つけていくわけです。

彼らの目標は、リファレンス配列並の高精度のゲノム配列を、いかに簡単に今あるテクノロジーでつくること。
BioNanoは技術的にはPacBioと全く異なりますが、うまく両方使えば他のどのテクノロジーでもできないようなことを可能にする、そんな論文です。

もちろん、このようなアセンブリは、BioNanoだけ持っていても不可能です。
BioNanoとショートリードでも無理でしょう。
PacBioが絶対に必要です。

2015年6月14日日曜日

PacBio User Group Meeting & Informatics Developer's Meeting

今年のPacBioアジア・ユーザーグループミーティングは、来月シンガポールで開催されます。
PAG ASIA学会の後に、同じホテルで行なわれる予定で、演者も決まりました!
PacBioブログはこちら

日本からは、セクシー&ワイルドワイルド&セクシーが正しい。訂正してお詫び致します!)の内藤健さんが発表の予定。
どんなテンションの、否、どんな楽しい内容の発表がされるのか、楽しみです。
直接のユーザではなくても、共同研究者、これから導入を検討している研究者なら誰でも、参加できますので、シンガポールまで・・・ちょっと遠いですね。

もうひとつ、8月の下旬にアメリカで予定されているのが、インフォマティクス系の開発者向けワークショップ。
こちらはプログラマーやアルゴリズムの開発者が一同に集まって、PacBioのデータ解析を論じ合うワークショップになる予定です。
日本からも東大の森下教授がスピーカーとして名を連ねています。


もちろん、海外まで行くのはちょっと・・・
という方のために、もしこれらが録画されることがあれば、その情報も追ってお知らせします。

さて、
日本でも、PacBio関連のイベント・発表がいくつか予定されています。

7月1日-3日、NGS現場の会 企業セッションとポスターと展示ブース
8月21日-24日 日本進化学会 ランチョンセミナー
9月以降はTBD
今年もPacBio現場の会、やるかも・・・

2015年6月9日火曜日

Swift スイちゃんはすごい

先月の国際ゲノム会議で、トミーデジタルの企業セミナーを聞いた方は、「あれっ? PacBioじゃないの?」って思ったでしょう。
もちろんその後のアカデミックセッションで、PacBioのCSO, Jonas Korlach氏の講演があったので安心したのではないでしょうか。

PacBioの話が続くのはアレなんで、うちのセミナーは別の製品、それもショートリード用のライブラリ作製キット、という驚きのセミナー!

「でもそんな、今更ライブラリ作製キットなんて、売れるの? 競合たくさんあるじゃん」
と思った方、そのとおり。 競合だらけです。
でも、この製品はきっとニーズがあるだろう、と思うのはそのスタート量の少なさ。

Swift Biosciences社、(スイフト・バイオサイエンシズと発音)、愛称は「スイちゃん」
このキットは4つあり、どれも少量DNAからスタートしてライブラリを作製できるところが特徴です。

少量DNAといってもどれくらいの量からスタートできるのか?
キットの種類、PCRの有無でも異なりますが、例えば2本鎖DNAスタートなら、PCR有りで10pgから、PCR無しで10ngからライブラリを作ることができる!

そんな少量からライブラリを作りたいというニーズはあるのか?

例えばcfDNA (セルフリーDNA)。 血中に漂うDNAを回収してシークエンスしたいというニーズはあるそうです。
リキッドバイオプシーとも呼ばれます。
厳密には、対象疾患によってその用語の使い分けがされているそうですがここではどちらも、cfDNAと呼ぶことにします。

そういうcfDNA、微量DNAからのショートリード用ライブラリ作製には、スイちゃんが向いています。

先ずは2本鎖DNAから


これはライブラリ作製の段階で、5’側にアダプターを付ける反応と、3’側にアダプターを付ける反応を別々に行なっています。
どうやってそんなことができるのか? 残念ながらそれはまだ企業秘密です。
反応ごとの回収率が非常に高く(>90%)、そのため少量DNAからスタートしても、シークエンスに必要な十分量なライブラリができるのです。


続いて、1本鎖DNAからのライブラリ調製キット


1本鎖、と銘打っていますが、損傷が多い2本鎖でも応用できます。
最初にDenatureのステップがあり、全て1本鎖にしますので。

まず、3’側にアダプターを付け、相補鎖を伸ばします。
反対側にもアダプターをつけて、PCR増幅して完成。
DNAインプット量は、PCRありだと10pgからスタートできるそうです。


続いてメチレーション用キット



BiSulfiteしてから、ライブラリをつくります。
損傷してニックが入ったDNAは、それぞれ分けて、ライブラリをつくります。
なので、先にライブラリを作ってからBisulする方法に比べて、DNAを無駄にすることが無い。
インプットDNAの最低量はなんと100pgから!


どれもこれも、本当?という数字ですよね。
実は私も???
アメリカの本社が出している数字ですし、それなりにデータもあるようなので、一応信じています。
販売されて間もないので、アメリカでもケーススタディのようなものはまだありません。
まさに、今なら、アメリカのユーザとタイムラグほとんど無しで、使用できる!!

私はこれが一番のメリットだと思うんです。
研究者にとってはある程度リスクだと思いますが、最新のテクノロジーはまず試してみて、良かったら使い続ける。
既にゲノム会議でも多くの興味を頂いているので、そのうち日本で、これが本当に「使える」のかどうか、わかる日も近いです。

「スイちゃん使える!」とわかったら一気に広まりそう、というのは甘いかな?
既に広く使われている、カッパくんがいるからねえ。
手間は多分、スイちゃんの方が簡単。
あとは、少量DNAからスタートして作られた、ライブラリのクオリティとシークエンスの結果。 
ここで、「カッパくんよりスイちゃんのほうがすごい。コスパも良い」ということになれば・・・


これ、PacBioのライブラリにも使える?
という質問には、「うーん、まだちょっと難しいかな。でも不可能ではないし、目的によっては、応用できるかも」とお答えしましょう。
今のところ、Illuminaシークエンサー、1本鎖用はIllumina&Ion Torrentシークエンサー用に作られています。


試薬なので、詳しくはこちらのページまで