2015年12月20日日曜日

PacBio メディカル関係の記事3つ

12月も半ばを越えると、もうアメリカはクリスマスモード。メールもほとんど来ません。
ブログを書く暇があるので、今日は、最近ウェブで紹介された、メディカル関係の記事を3つ紹介します。

まずはこちら、Diagnostics Worldからの記事

Long-Read Sequencing in the Age of Genomic Medicine


Icahn School of Medicine at Mount SinaiのBobby Sebra氏曰く、「Pseudogenes, large structural variants, validation, repeat disorders, polymorphic regions of the genome―all those are categories where you practically need PacBio」
ヒトゲノムに存在する変異には、ショートリードでは検出できない大きな構造変異、リピート変異が多く存在します。これらを検出するにはPacBioのロングリードが不可欠、という話。

技術はある。マシーンもある。あとはソフトだけ。

ソフトウェアは、研究者向けには一通り揃っていますが、お世辞にも現場の医者向けではありません。
それはどのNGS機器でも同じ問題を抱えているでしょう。
Mount Sinaiでも、3台のPacBio RSIIから出てくるデータを効率よく解析できる様に、彼ら独自のソフトウェア・アルゴリズムを作っています。(例:構造変異検出ツールとか)
また、ひとつのテクノロジーにこだわらず、10Xや、BioNano、Oxford Nanoporeなどいろいろな技術を次々に取り入れ試しています。
最近2倍体ヒトゲノムをPacBioとBioNanoで解析し、それまでのどの結果より優れたContig/Scaffold配列を作りました。

このように、他のNGSとは明らかに優位性を持つPacBioのロングリード。
メディカルの現場に持ってくるにはどうしたら良いか?

言うまでも無く、機械の使いやすさと安定性、低コスト、わかりやすいソフトウェア、が必要でしょう。
RSIIからSequelになって、実際のところはどうでしょうか?

Sebra氏は、Sequelのアーリーアクセスユーザでもあります。
その辺の話は、また今度、2月23日(火)に秋葉原で行なわれる、「第二回PacBio現場の会」ワークショップセミナーにて、詳しく聞けますよ。
お時間があれば是非ご参加下さい!お楽しみに!

ちなみにこの記事の中に登場する英語で、「Off-the-shelf」というのがあります。
いつでも買える、とか、入手可能な、という意味です。
Off-the-shelf analysis, with readable diagnostic reports for doctors
というと、医者が読みやすい、臨床レポートが出てくる解析ツールの存在、という意味。
今はまだありませんが、これなくしてクリニカルシークエンスの現場に普及するのは難しいですから、絶対できるはずです。


次はGenomeWebから(ごめんなさい、これは有料みたいです)

Baylor Team Explores PacBio Long Reads for Detecting Pathogenic Structural Variants in Patients

こちらはBaylor College of Medicine & Miraka が考えている、ヒト診断への可能性についての記事です。
BaylorのAssistant Prof. Bainbrigdeは述べています(ざっくり翻訳)。
「ヒト全ゲノムのシークエンスが現実的なものになり、皆さんこれで構造変異などの問題は全て解決できる!と思ったはずです。でも、たいていの構造変異検出プログラムは、変異全体の1/3~1/4ほどしか検出できていないんです。それらを合わせても半分くらいしか実は検出できていないことになります。でも、6,000~10,000 bpのロングリードを使えば、もっと簡単にできるはず」

Proof-of-Concept(できるかどうか試してみよう実験)にて、Baylorのチームは、PacBioのロングリードが、どれだけ遺伝子検査に応用できるかを調べました。
彼らはまず、既知の疾患関連遺伝子ベスト100にフォーカスしています。その中には、がん関連遺伝子60余りや、シングルセキソンの抜け落ちが原因で引き起こされる疾患関連遺伝子、Fragile Xシンドロームなどリピートの数が重要となる遺伝子、が含まれます。

そのような、重要遺伝子だけをキャプチャーする技術、キャプチャーシークエンスとかターゲットリシークエンスとか呼ばれますが、これをPacBioのロングリードにも応用できます。
前のブログ「PacBio-LITS PacBioでターゲットリシークエンス 1& 2」でも紹介しましたが、プローブを用いて、7kb程度のロングリードをキャプチャーできるようになったのです。

今までのキャプチャーシークエンスといえば、タンパクコーディング箇所に焦点を当てた、エキソームシークエンスが有名ですね。
各メーカーがキットを出しています。
PacBioのロングリードでできるキャプチャーは、エキソンのみならず、遺伝子全体なんです。
遺伝子全体をキャプチャーできるアプリケーションはPacBioのロングリード無しではできない。
これはがん遺伝子もそうですが、HLA遺伝子なんかも、全体をキャプチャーしたほうが複雑な変異(phasingなど)を検出できるので良いと思います。


最後は、こちら
Front Line Genomics Magazine  Issue Six


こちらの雑誌はフリーで全文読むことができます。
その42~43ページめにPacBioの記事があります。
インタビューに答えているのは、PacBio本社のマーケ担当、イケメンLuke Hickey

内容は、これまでPacBioを使って挑戦されてきたヒトゲノムアセンブリの紹介と、On-Goingなプロジェクト。

ハプロイドのヒトゲノム(hydatidiform mole, CHM1)をPacBioで読んで読んで・・・というのは、以前このブログでも紹介しましたが、その時はWashington University in St. Louisのプロジェクト。
大学名が似ているのでたまにごっちゃになるのですが、こちらはthe University of Washington、さらにUniversity of Bari Aldo Moro と University of Pittsburghのチームは、同じくハプロイド株を40X PacBioで読んで、リファレンスゲノムに存在する160箇所のギャップのうち半数以上を、クローズするかギャップを縮めたそうです。
そのほとんどはGCリッチな場所、反復領域だったとのこと。
さらに、100万塩基以上の新規の配列を追加。
彼らが見つけた26,079個の変異箇所のうち、コピー数変異の85%、挿入変異の92%、欠損変異の69%が、これまでに報告の無い新規だったそうです。

ということは、リファレンス配列といっても、まだまだ完璧ではなかったんですねえ。

リファレンス配列といえば、ここ数年、人種ごとにリファレンスを作ろう!的なプロジェクトが動いています。
韓国のマクロジェン社とソウル大学が推し進める、韓国人リファレンスゲノム計画は、PacBio、BioNano、BACシークエンスを使ってデータを出し、完成に近づいています。
GRC(Genome Reference Consortium)アセンブリよりも、よりアジア人を代表するリファレンスゲノムになる予定です。

さらに、あのCraig Venter博士が率いるHuman Longevity, Inc. では、世界の人種を代表するゲノム、30リファレンスを作成する計画があるそうです!
何とも壮大な計画・・・
Front Line Genomics Magazine,  Issue Six, p43
こういう夢のある計画、いいですね。

ヒト以外の生物でも、もう一回PacBioで全ゲノム読んでみたら、意外と新規配列がたくさん見つかるかも。






2015年12月16日水曜日

Oropetium ゲノムをPacBioで解読

前記事のアズキマメのゲノムサイズは540Mb
それに比べるとインパクトは薄いですが、245MbのOropetium thomaeum ゲノムもPacBioで読まれて論文になりました。

Oropetium なんて発音するんでしょうか? オロペティウム? 乾燥に強い芝です。
VanBuren et al.,(2015)

植物ゲノムは一般的にサイズが大きく、倍数体を持つため、アセンブリが非常に困難です。
でもこの植物のゲノムサイズは比較的小さい245Mbで、全体の43%がリピート配列だそうです。
タンパクコーディング遺伝子の数は28,466個。ヒトより多いですね。

この論文の共同著者には、PacBioの社員が何人も含まれています。
なーるほど、つまり、Best of the Bests 的な仕事なわけですね。

20 kb ライブラリを作成し、Blue Pippinで15kbカットオフ
P6-C4ケミストリーを使って何と、72xも読んでいる! 245Mb X 72 = 17.64Gb
32セルランしてかかった時間は1週間
今なら十分可能です。 P5だとちょっと厳しかったかな。

アセンブリはPacBioらしく、HGAPを使用。
エラー補正後のサブリードの、16kb以上の長さのものを使ってアセンブリし、最後にQuiverを2回。

650本のContigは全ゲノムの99%をカバーし、N50 は2.4Mbに達したとのこと。

このOropetiumゲノムアセンブリ結果のすごいのは、18箇所のテロメアにて、40から900のリピート配列をきちんと捕らえ、また9つのうち3つのセントロメア領域もカバーできたことです。
なかなかやるなあ。

時間とコストについても述べています。
"The total time from extracted DNA to a complete assembly was less than one month, and costs for PacBio were comparable to an Illumina-based genome assembly."
つまりコスパが良い!
日本でのランニングコストに見合せても、同じことが言えるでしょう。きっと。

またエラーについても、シングルリードのエラー率が15-20%であるが、Contigレベルでは99.99995%に達し、Sangerシークエンスと比べても遜色無いことを述べています。
PacBioの社員が研究に加わっているので当たり前かもしれませんが、PacBio Onlyでシークエンスすることをお勧めしていますね。

でもこの精度の高さにはちょっと驚き。




2015年12月15日火曜日

アズキゲノムをPacBioで解読

先日、つくばにて、データ解析ワークショップ(NGSワークショップ)があり、私は午前中のセッションでSequelについて喋ってきました。
午前中は、NGSメーカー全社がそれぞれの最新情報を発表し合うというもの。
なかなかそういう場は無いですよね。
よく、「競合同士は仲が悪い」と勘違いされているひとが多いですが、私に限っては結構業界の横のつながりが多いです。
その方が業界全体が活性化されると思うので。

さて、お昼前には、五條掘先生の特別講演。
サウジアラビアの大学は、まさに世界でもトップクラスだということを実感しました。
お金が潤沢にあるから、と片付けてしまえばそれまでですが、石油以外に目立った産業が無いことを将来の危機と感じて、学問を育てよう、どうせやるなら世界一を目指そう、というサウジ政府の覚悟がすごい!
同じように、将来を見て教育に投資をしている国は、シンガポール、スウェーデン、など、大国ではない国に見られる気がします。
日本やばい。

五條掘先生が最後の方に仰った、
「良い問題をつくることが良い結果を残すことにつながる」という哲学的な言葉は、学問全般に言えるな、と思いました。
しょーも無い問題を提起して研究しても、それなりのレベルの結果しか残らない。
しかし「良い問題」を作るのもまた、センスがいる。
学問のみならず、政治や産業の世界にも通じる言葉の気がしました。


さて、セッション最後の発表は、農生研の坂井さん。
「Vigna属植物ゲノム研究の最前線」です。
坂井さんらのこの研究は、先日、論文なりました。


NGS現場の会では共著者の内藤さんが、進化学会ランチョンでは坂井さんが、それぞれ発表されていますので、ご存知のかたも多いでしょう。

アズキマメが含まれるVigna属というのは本当にすごい植物たちです。
乾燥に強かったり、塩害に強かったり、アルカリ土壌や酸性土壌に強かったりと、様々な耐性を身につけた種が多いスーパー植物連合だそうです。
9種が栽培種となり、82種は野生種。 栽培種9種のうちのひとつ、アズキマメのゲノムを今回PacBioとイルミナのシークエンサーで読んでアセンブリし、これまでで一番精度の高いゲノム配列を作り上げました。

ゲノムアセンブリのために使用したデータは、51xのPacBio ケミストリーはP5-C3
最初のエラー補正はSpraiを使用、その後リードの長いほうから25x分を選択してCelera アセンブリし、Quiverで最終補正というパイプライン。

まず、PacBioだけのアセンブリ結果(Assembly_3)ですが、Roche+Illumina(Assembly_1)、Illumina Only(Assembly_2)と比べても、Contig数、N50やMax Contig 長などの数字が桁が違うのは一目瞭然。
Sakai et al.,(2015)
さて、その後6,000個のSNPマーカーを頼りに、リンケージマップを作成し、Contigをアンカリングしていきます。
このようにしてアセンブルミスを除去していくと、想定ゲノムサイズの83%、448Mbにまとまりました。うち明らかな矛盾は19箇所。
これらはイルミナリードをマッピングすることで、矛盾は除去されたそうです。

PacBioといえども、アズキマメの例では、アセンブルのエラーは0ではありませんでした。
1,631個のSubstitution、8,611個のInsertion、38,889個のDeletionエラーがあったそうです。
ランダムに91個をSangerで調べたところ、確かにPacBioの方が間違いであったと。
その多くは、3塩基以上連続するホモポリマー。
私もデータを見せてもらいましたが、確かにホモポリマーが多かった記憶があります。
Sakai et al.,(2015)

これらのエラーはイルミナデータで修正し、さらに、ScaffoldのギャップをPB-Jellyで埋めて、2,529本のScaffoldにしてゲノムの95.2%をカバー。


Sakai et al.,(2015)
こちらは、Roche+Illumina(Assembly_1)、Illumina Only(Assembly_2)、PacBio Only(Assembly_3)のアセンブリ結果それぞれで、ゲノムの何%をユニークな配列が、リピート配列が、ギャップが占めていたかを表したグラフです。
ショートリードのアセンブリが、全体に占めるギャップの割合が多く、リピート配列の割合が少ないのは理解できます。
しかし、ユニークな配列も、ショートリードのアセンブリでは、PacBioアセンブリに比べて少なかったのは意外です。
ということは、ショートリードアセンブリでは、リピート配列以外のユニークな配列でも、取りこぼしがあったということ。
PacBioロングリードで読んで、初めてわかったことです。

いずれにしても、PacBioで作成した染色体配列は、これまでのどの配列よりも高精度で、リファレンスとして使用できるレベルになりました。

この論文の良いところは、「PacBioすげー!」だけではなく、PacBioだけでアセンブリしてつまづいた(結構エラーがあった)ところを、どうやって修正していったか、をこと細かに書かれていること。
メーカー側にいると、つい「PacBioだけでアセンブルは完成できる!」なんて言ってしまいがちなんですが、まあ、バクテリアならそうだったかもしれません。
でも高等生物はずっと複雑。
PacBioを使えば、すごい結果が良くなるのは確かだけれど、もうひとつ上のレベルの精度を目指すなら、ショートリードもちょっと必要だということです。

このプロジェクトはP5-C3ケミストリーでシークエンスされたので、P6-C4で読んだらもっと精度は高かったかもしれませんね。
野生種のシークエンスプロジェクトにも期待しています!

最後に、
論文の謝辞に入れていただき、ありがとうございます。


ーーーーー
論文の著者でもあります、坂井さんは、2月23日に秋葉原で行なわれる「第二回PacBio現場の会」ワークショップセミナー でお話します!



2015年12月5日土曜日

分生が終わって

「今年の分生は長かった」というのは企業のひとならみんな思ったはず。
先ずね、展示会の前日には搬入&ブース設営というのがあるんですよ。
ブースの基礎は私たちが来る頃にはできているんですが、展示してみてから、「やっぱりちょっと暗い」とか、「この壁が寂しい」とかあるもんで、そういうときは照明追加したりカタログラックを増やしてみたりするんです。
で、まあ何とかブースが出来上がって、その日の夜は呑みます。

翌日から展示会は開始。午前10時~午後6時45分まで。
午前10時からというのはありがたいですが、午後6時45分までというのが結構長い。
ほとんど立ちっぱなしですからね。

今回は、Sequelのお披露目ということもあり、たくさんのお客さん(PacBioを知っているひとも知らないひとも)が来てくれました。
喋りすぎてか喉が痛い。

最終日も午後6時45分までポスターがあって、その後7時過ぎからブースの片付けが始まります。
片付けは慣れれば結構早く終わるものですが、運送業者さんが準備できるまで待ったりしないといけません。

今回の分生では、4日は展示が無かったのですが、せっかく中に入れるバッジをもらっているので通常参加してきました。

9時からは「感染を制御せよ!微生物と宿主の”覇権争い”生物学」ワークショップに参加。
菌、原虫、ウイルスなどからの感染をいかに防ぐか。それぞれの生物の専門家がいろんな角度からアプローチしている様子は刺激的でした。演者の発表の仕方も素晴らしかった。

マラリアって今もワクチン無いんですね。知りませんでした。
蚊から感染して、原虫が肝臓に達するまでわずか10分。60時間後には虫の数は3万倍に増える!早ければ感染して1週間後には死に至るという。
なんて恐ろしい病気なんだ。
でも、肝臓を目掛けて移動する原虫の、移動メカニズムの仮説は面白かった。

昼からは、一般演題。ちょっとテーマが???かな、というセッションに入ってしまった。眠くなったら他のセッション会場に移る。
そんなことをしていました。
学生さんの発表は見てて初々しいですね。何度も練習したんだろうなあ、という教科書のようなプレゼン。

他人のプレゼンを見るのは好きです。
内容はともかく、発表者の人柄が現れるプレゼンは、見ていて楽しい。
もちろんそういう発表は、概して内容も良いものです。

来年の分生は横浜です。
再来年はまた神戸だそうです。
パシフィコ横浜は展示会場が1つなので嬉しい。

さて、来年、第二回「PacBio現場の会」を予定しています。
日時は、2016年2月23日(火)
場所は、東京秋葉原UDX

今回もおよそ100人程度の参加を見込み、アメリカからも演者を招きます。
PacBioユーザや共同研究者のかたからの発表があります。
ランチ付きで、参加費は無料、基本的に誰でも参加OK(ということは競合他社も排除しないということ?)
Seqeulのデータも公表する予定です。

参加フォームは、ウェブサイトが出来上がったらこのブログでもお知らせしますし、NGS現場の会のメーリングリストでもお知らせします!

尚、現在この会で発表してくださる方を募集しています。
約25分、PacBioに関すること、ウェットまたはドライの研究発表です。
共同研究でPacBioを扱っている方、受託で読んだ方。是非PacBioのコミュニティで発表し合いませんか?
私どもからも、何人かの方にはお声をかけます。
あと数名、演者が増えたらいいなあ、と思っていますので。



2015年12月1日火曜日

Sequel 日本初上陸!

皆さん、今日から毎年恒例、分子生物学会が始まります。
今年は神戸です。

そこで何と、我らが新型シークエンサー、「Sequel」のデモ機を展示します。
直前までアナウンス無しですみません。
この機械、ちょっと前まで、スペインの展示に使われていたので、正直、ちゃんと届くか不安だったんです。
でもギリギリ間に合いました。

こんな大きな箱に入って運ばれてきて、

よいしょ、っと。
そーっと、取り扱います。

設置完了!

ま、これは展示用ですので、中の精密装置は抜いてあります。
でも何となく、雰囲気は味わって頂きたいと、今回、展示しました。

みなさん、見に来て下さいねー
2号館です。
トミーデジタルのブースです。
トミー精工のブースと一緒です。
隣には新型遠心機、大ヒット商品のオートクレーブ洗浄液もありまーす!