2018年1月28日日曜日

ダボス会議でもゲノムプロジェクトがトピックに上がったらしい件

ニュースで知ったのですが先週はスイスのダボスで「世界経済フォーラム」が行われていたそうですね。
通称「ダボス会議」。最終日にはアメリカのトランプ大統領がスピーチし、「アメリカファーストはアメリカ孤立主義では無い」と述べたそうです。外では反トランプデモをやっていたそうな。

正直ダボス会議って、主要各国の首相や大統領、官僚や経済界トップなどが集まって、なんか世界のためにどうするか話し合う場、のような漠然としたイメージしかありません。
「国連総会」よりもまとまりがあるような、「G20」よりも守備範囲が広いような、そんなイメージしかないなぁ。
日本であまり報道されないのも、今年は安倍総理が出席しなかったからかな?
G7の首脳で今回出席しなかったのは安倍さんだけだったらしい・・・。

日本での報道があまり無いならググるしかないわけですが、ダボス会議の精神は、「世界の多様性を重んじて、社会をより良くするための、マルチステークホルダーになる」ことらしいです。
何だか漠然としたテーマですね。簡単にいうと「世界にはいろんな価値観のある国や民族、宗教があるけれど、お互いを認め合って、これまでのような戦争をせずに、地球の限られた資源をみんなで仲良く使いましょう!」っていうのを確認し合う会議らしい。

経済フォーラムというだけあって、産業やビジネスと密接に関連する環境汚染や資源の枯渇問題、地球温暖化、脱炭素社会などへの取り組み、なども話し合われたみたいです。
これは私がググって探したわけではないのですが、ダボス会議ではゲノムプロジェクトの話題もあったそうな。

ダボス会議のウェブサイトより
UC デービスのウェブサイトより
地球上に存在する植物・動物から昆虫、単細胞生物まですべての真核生物種の推定数は1,500万(この数字には色々説があるようですが)。
そのうち150万種程度が分類学的に知られていて、うち15,000種のゲノムが読まれているらしい。つまり我々はほんのわずかの生物しかゲノムシークエンスしていない。
もちろん皆さんならゲノムが「読まれた」というのと、ゲノム配列が「わかった」というのが全然別次元の話なのは、言わずもがなですよね。(この辺はマスコミに報道されるときにごっちゃにされるんですよね)


地球上のすべての種のゲノムを読むという「Earth BioGenome Project(EBP)」は、スケールがでかすぎるのか、実現するには10年と47億ドルかかるらしい・・・。
かつて、ヒトゲノム解読プロジェクトが国際チーム V.S. 1企業(セレラ・ジェノミクス社)で競い合いながら、ほぼ同時に完了を発表しました。
その時、ヒトの遺伝子配列が特許になりうるか?という問題が話題になりました。
ヒトゲノムを読むことがビジネスになるかも、という期待があったのです。

今、生命の宝箱と言われるアマゾンで、様々な生物のゲノムを読んで、農業への応用や新薬のシーズ探しをしようという野心的なプロジェクトが進んでいます。
ブラジルに住むペルー人の起業家、Juan Carlos Castilla-Rubio氏は、今なら数多くの種のゲノム配列を決めることも昔ほど難しくないと知っているのでしょう。ゲノムを知ることでそこから生まれるビジネスの匂いを嗅ぎ分けているのかもしれません。

同じようなゲノムプロジェクトはG10KやB10K、確か植物系でも昆虫系でも似たようなものがあります。あえて今からプロジェクトを立ち上げる必要があるのかな、って思ったりしますが。

数十万円~数百万円あれば、生物一種のゲノムは決まる時代。
結局、いろんな人がそれぞれ好きな生物のゲノムを読んで、データをぜーんぶ集めたら知らないうちに地球上の生物全てを読んでいました! 的なオチになるんじゃないかな?


2018年1月26日金曜日

32ギガベースの巨大ゲノムを、たった32xのPacBioデータでアセンブリしたって?

最近寒いですねー。東京でも雪、連日の冬日。
このまま氷河期に入るんじゃないか?
2月になっても寒い日が続くのでしょうか。
ビールが好きな私ですが、こんな日は芋焼酎お湯割り、がいい!

そんな中、驚きの32Gbゲノムアセンブリ論文がNatureから出されました。
The axolotl genome and the evolution of key tissue formation regulators
サラマンダー、またはメキシカンサンショウウオ、またの名をAxolotl
今の40代以上のひとならアホロートル、という名前より、ウーパールーパーといったほうがわかるかな?

東京池袋のサンシャイン水族館で一時大人気だったウーパールーパー
こいつ、小さくてかわいいわりにゲノムサイズが32GBもあるそうです!
またこいつは、失った手足を自分で再生することができる。その辺が科学者に注目されてきたのです。
昭和のバブル時代、なぜか大ブームになった、らしい
私もかすかに記憶あります

Dr. Gene Myersらのグループは、PacBioとショートリード、BioNanoを組み合わせ、さらに新しいゲノムアセンブラー「MARVEL」を作り、この巨大ゲノム生物のアセンブリに挑戦しています。
RSIIを使いなんと2,000個のSMRT Cellから32カバレッジのロングリードを取得。でも32カバレッジでアセンブリなんてできるのでしょうか?
そこはさすがGene Myersです。MARVELアセンブラーはHGAPのように最初に生リードのエラーを補正するのではなく、エラーっぽい箇所を見つけては「つぎはぎ」するらしいです。そうして99%程度の精度にした後でアセンブリに持ち込む。
詳細はSupplementにアルゴリズムが説明されています。今度しらふの時にしっかり読んでみることにしよう。

最初にPacBioデータだけで作ったアセンブリのコンティグN50は218kb
次に7カバレッジのイルミナデータでエラー補正して、最後にBioNanoデータでスキャフォルディングしてN50=3Mbを達成しています。

アセンブリした配列は65%程度がリピート、特にLong Terminal Repeat(LTR)がこの巨大ゲノムに多く見られたそうです。
このアセンブリ配列は、四肢の再生を制御し成長をつかさどるのに重要な役割を果たすHoxA遺伝子群や、その他重要遺伝子・遺伝子ファミリーの機能解明に役立つかもしれません。

今回のゲノムアセンブリ、32Gbゲノムですが、32カバレッジだけ(といっても結構な量を読んでいますけれど)でコンティグN50が217kbというのはなかなかすごいです。
BioNanoを使ってスキャフォルドしていますが、個人的にはDovetail ChicagoやHi-Cを加えれば恐らく、ChicagoでスキャフォルドN50が数Mb、Hi-Cで数十Mbは可能だったのでは?と思います。
巨大ゲノムはいまだにチャレンジングかつお金がかかる・・・ と思った論文でした。

Nowoshilow et al., 上記論文より
他の巨大ゲノムアセンブリとの比較
左が今回のアホロートルゲノムアセンブリ



2018年1月21日日曜日

PAG XXVI 学会(その3)SMRT Developers Conference など

今回のPAGのゲノムアセンブリの発表の中で、特に興味を持ったのは、Trio-binning という方法でF1ハイブリッドのハプロタイプを決める方法。

ウシの場合、黒いアンガス牛と白いブラフマン牛の掛け合わせで、ブランガスという牛がいるそうです。これは、肉質は良いが暑さに弱いアンガスと、肉量は少ないが病気や高温に強いブラフマンの掛け合わせで、両方の良いとこを取ったF1牛です。

このようにして作りだしたF1ハイブリッド種は、とてもゲノムのヘテロ性が高いと想像できます。
ゲノムを読んでアセンブリしたら、ゲノムサイズx2くらいのアセンブリサイズが作られるでしょうね。
それにPacBioのようなロングリードで深く読んだとしても、Falcon Unzipではハプロタイプスイッチ、ということがおきて、完全にハプロタイプを決めることは困難。
PAGXXVI Dr. Sergey Korenのスライドより
”Falcon Unzipで作られるPrimary Contigは、正しいハプロタイプを反映しない。
これは、Pseudohaplotypesといった方が良い。
正しいHaplotigsを作るには、もっと別な方法が必要。”

そんな中SMRT Informatics Developers Conferenceでも発表したDr. Sergey Koren が提案しているのは Trio-binningという方法です。
あらかじめアンガスとブラフマンはIlluminaショートリードでたくさん読んでおく。
F1はPacBioでたくさん読んでおく。
F1をアセンブルする前に、F1のPacBioリードを、親のショートリードのK-merで、SNPをもとにそれぞれの由来リードに分けてしまう。
アンガス由来とブラフマン由来に分けられたPacBioリードを、Canuでアセンブルする。
ざっくり言うと↑な感じです。
PAGXXVI Dr. Sergey Korenのスライドより
左がFalcon Unzip、右がTrioBinningの結果
左はアンガスとブラフマンがFalcon Unzipではうまく分けられていない
右は、両者のTrioBinning後のアセンブリがきれいにアンガスとブラフマンに分かれている

このやり方ができるのは、両親のゲノムをもとにF1のリードを分けるので、両親がわかっている場合に限られます。
野生動物や、親がわからない種は、できないのではないかな。


さて、SMRT Informatics Developers Conferenceの発表に使われたスライドはこちらにアップされていますので興味ある方は是非チェック!
PacBioのポスターなどもあるので面白いですよ。

2018年1月16日火曜日

PAG XXVI 学会(その2)PacBioとDovetailの新情報

今回のPAGではゲノムアセンブリ関係で2つの大きなニュースがあります。
まずはPacBioの最新スループット
これは今日のワークショップでMarty(製品担当責任者)が発表していたのでそのまま紹介しますね。
PacBioワークショップより Martyの発表

な、なんと、ポリメラーゼリードのN50 が30kb超!
つまりデータの半分以上が30kb以上の長さということ。
1セルあたりの塩基数は10Gb
リード数は40万本
いいですねえ、素晴らしい。

ロングリードのあちらの会社には負けてませんよ!


もうひとつのゲノム関連企業、Dovetail Genomics
こちらは新製品の発表です。
Dovetail Hi-Cキット
Hi-Cライブラリ作製キットです。
もうウェブサイトにも情報が載っているので見た方もいるでしょうか。
これは、1キット8本入りで、1本は3Gbまでのゲノムサイズに対応しています。
つまり5Gbのゲノムなら2本分が必要。3Gbゲノムサイズまでの生物なら1キットで8サンプル分が作れます。

ユーザはこのキットを使う前に、自分が読みたいゲノムのドラフトアセンブリを持っていることが条件です。
さらにそのアセンブリのコンティグ/スキャフォルドのN50 が1Mb を超えていることが必要です。
その理由は、Hi-Cで良い結果を出すためにはもともとのアセンブリのクオリティが良い必要があるからです。
そのクオリティ(N50=>1Mb)に達していない場合は、あらかじめPacBioでアセンブリしておくか、Chicagoを使ってアセンブリしておくか、いずれかが必要でしょう。

さて、Hi-CキットでHi-Cライブラリを作ったら、自分のところでシークエンスします。
HiSeqXで1レーンくらい読めば3Gb程度のゲノムなら事足ります。

読んだリードを自分のドラフトアセンブリと組み合わせてスキャフォルドするには、HiRiseというソフトウェアが必要です。
これを追加料金でDovetailにお願いするも良し、自分でやってみたい場合はDNANexusのクラウドパイプラインを使って無料で1回やるも良し。
このキットにはDNANexusのパイプラインで1回解析する分のライセンス料も含まれています。

現在はまだ、哺乳類でしか検証していないので他の生物種でうまくいくかは未確認ですが、いずれできるようになるでしょう。
そして4月以降のどこかで、植物用のキットも出る計画。
気になるお値段ですが、来週以降に決定する予定です。お楽しみに。

キットを販売すると言っても、今まで通り受託サービスも続けますから、全部お任せコースも維持します。
Dovetailは公平な目で見ても、今年のPAGで一番勢いのある会社と言っていいと思いますよ。

PAG XXVI 学会(その1)ゲノムシークエンスはPacBioとHi-CとBioNanoで決まり!

PAGは植物と動物のゲノム学会とだけあって、いろんな生物のゲノムシークエンスの発表があります。
今回ちょっと残念なのは、聞きたい発表が結構重なっていること。
でもPacBioが一般的に使われてきたせいかなーと思うことにしています。
PacBioのブース 
デザインの好みは分かれるか
昨年もそうでしたが、PacBio+Dovetail Chicago/Hi-C + BioNano
のどれかの組み合わせはゲノムシークエンスの発表で良ーく耳にします。
特に今回多かったのはPacBio+Hi-Cの組み合わせ。
Complex Genome Sequencingのセッションでは、クルミ、ココナッツ、ヒマワリ、ピーナッツ、とどれもPacBioが基本で補正的にHi-CとBioNanoを使っていました。

クルミ(ゲノムサイズ560Mb前後)の発表ではBioNanoを最初に使って物理マッピング地図を作っていました。(最初にBioNanoから行うゲノムプロジェクトは初めて聞いた!)
PacBioデータは47x でアセンブリ、N50=8Mbも得られたのは驚きですが、BioNanoの地図を加えて294本のスキャフォルド、N50=34.8Mbを達成したとのこと。

ココナッツはゲノムサイズが2Gb~2.6Gbと大きく、50xのイルミナデータでアセンブリ、15xのPacBioでギャップフィリング、DovetailのChicagoデータを足してスキャフォルディングという安全かつ簡単な方法を採用していました。
因みにココナッツは全世界の25%をフィリピンで生産しているらしく、一番の用途はコスメティクらしいです。へー意外。

ヒマワリはゲノムサイズ3.6Gbで、8kbと11kbのリピートが多くゲノムの33%を占めるらしいです。
102xのPacBioデータをFalconアセンブリして2.93Gb、N50=498kb、12,318本のコンティグを得たあと、こちらはBACデータにアラインしてPseudo chromosomeを作っていました。BACデータがあったからこそできた話ですね。

ピーナッツは1.25GbのAゲノムと1.4GbのBゲノムが2~300万年前にくっついて2.8GbのAABBとなったらしい。AとBは98%が同じ配列で64%がリピート、ATリッチという特徴があるそうです。
48xのPacBioデータをアセンブリしてコンティグN50=460kbを得た後、Hi-Cを行って、最後はイルミナリードでアセンブリエラー修正。
ピーナッツは染色体の端っこの方ではBゲノムがAゲノムになる傾向があるらしいです。


これとは別のセッションでも参考になる話が聞けたので少し。

キヌアゲノムは昨年Natureの論文で出ましたが、Kaniwa(カニューアと発音するらしい)という種を初めて聞きました。キヌアよりもタンパク質が多くて健康食らしいです。
ゲノムサイズは452Mbで、イルミナとHi-Cである程度スキャフォルディングまではできた。
これにPacBioデータを加えてギャップフィリングをするのですが、17xデータでやったけれど結構苦労したとのこと。やっぱり30xは欲しいと言っていました。
個人的には、Hi-CをするよりもChicagoを行った方がギャップフィリングの前のスキャフォルドの精度が上がったと思います。
または、最初からイルミナを使わずにPacBioで70xくらい読んで、それにHi-Cを加えるのが、お金があれば最適の方法でしょう。(←Sequelのランニングコストで考えるとPacBioのアセンブリもバカ高いわけではありません)

カベルネ・ソーヴィニョンもアップデートがありました。
以前ここでも紹介しましたが、ヘテロ性が高いのでFalcon Unzipのテストにも使われたこともあります。
これまではアセンブリしてN50が数Mbとかの話で終わっていましたが、その後BioNanoデータとDovetail Hi-Cを加えて、19本のPseudo Chromosome / allele まで完成させていました!
ほかにもIsoSeqを行い、672,000本の高精度アイソフォーム配列を得たそうです。
うち549遺伝子(585アイソフォーム)は、他の品種のゲノムにも転写産物データベースにもなかったとのこと。新規?

アセンブリにどれくらいのカバレッジが必要か問題についても少し議論があり、カベルネ・ソーヴィニョンの例では、「多ければ多いほど」良いとの結論でした。
つまり、カバレッジが多すぎてコンティグの長さが saturate してしまう、ということは無く、90xでも100xでも、多ければ多いほどアセンブリ結果は良くなる、というそうです。
とは言っても、100xの場合でもエラー補正に使われるリードがかなりありますし、カベルネ・ソーヴィニョンの場合はヘテロ性がとても高いので、ハプロタイプあたり50xと言えなくもないです。
そうするとヒトゲノムアセンブリで50x以上を推奨しているのとほとんど変わらない、かもしれませんね。




2018年1月14日日曜日

PAG XXVI 学会(その0)

今私は、カリフォルニア州サンディエゴの近く、ミッションバレーという街で行われるPlant Animal Genomics学会に来ています。
毎年同じ場所で行われるみたいですね。
その学会報告は明日から。今日は半分旅行記みたいなものです。

私は、航空会社はいつもANA系列を使っているので、サンディエゴに来るときは乗り換えなければいけません。
隠れたお勧めは、LAX(ロサンゼルス国際空港)で降りて、陸路で行く方法です。

先ずはLAX空港からUnion Stationに行きます。空港を出たらすぐ前のバス乗り場から、FlyAwayというシャトルバスに切符は買わずに乗り込みます。行先はちゃんと確認!
終点のUnion Stationで降りたら、運賃を支払って駅に歩いて向かいます。
片道9ドル75セントです。クレジットカードしか使えないので注意。
Union Stationの中 歴史ある建物です
Union Stationからは、Amtrakという列車に乗ります。
これはあらかじめネットでチケットを買っておくと便利で、サンディエゴまでコーチ(普通車)クラスで37ドル、ビジネスクラス(グリーン車)で56ドル。ビジネスクラスは飲み物とチップスが付いてくる。
電車と席はこんな感じ
ディーゼル機関車が引っ張るがっしりした列車
普通車でも十分快適!
日本ではもう珍しくなったディーゼル機関の列車に乗りこんで、アメリカンサイズの椅子に座ったら、本を読んでも良し、のんびり景色を眺めても良し。誰かと一緒ならおしゃべりしても。
汽笛を鳴らしながら、大都市ロサンゼルスの郊外を走り、ディズニーランドがあるアナハイム、大学町のアーバインを抜けると、列車はだんだん加速します。
ロサンゼルスのダウンタウンが遠くに見える
しばらくすると右側に海が広が見えてきます。
1月だというのにビーチで遊んでいるひとがいました。あったかいのかな。
スマホで天気を確認したら外は26度あるとのこと。なるほどねー、水着でも大丈夫なのか。
太平洋
途中駅のOceanside、文字通り海沿いにあるリベラルな町です。
もう20年も前の話になりますが、留学時代、私はこの町に住んでいる友達を訪ねて来て何日間か住んだことがあります。当時、アパートから見える太平洋の向こうに日本があるのかなーって思ったもの。今日も海がきれいでした。
海岸線を走っているとだんだん車内も静かになってきます。みんな疲れているのでしょうね。

ロサンゼルスを出てから約3時間、間もなくサンディエゴです。
San Diego Old Townという駅があります。
次が終点、San Diego Santa Fe Depotです。
ダウンタウンに行くなら終点までですが、今回はミッションバレーというところのホテルなので、Old Townで降ります。

降りたらタクシー? いえ、Uber使いましょう。全然安くて便利です。
ホテルまで8ドルちょっと。
車内でUber運転手の兄ちゃんと話しました。「How are you doing?」から始まって、日本から来たことを話すと、彼も日本に行ったことがある、って食いついてきた。
福岡に行ったそうで、何でも、前回?のWorld Baseball Classicトーナメント予選で、メキシコ代表チームとして出場したことがあるらしい(私はWBCについては詳しくないのでこれ以上話を掘り下げられなかったのが残念)。

えー! プロ野球選手がUber運転してていいの? と思ったけど、そこは忖度して聞かないであげた。
ちゃんとあとでUber の運転手評価を★5つにしたし、チップも追加したし。

どうでしょう? 長時間飛行機乗った後にまた別の飛行機乗るのはしんどい、空路だとホテルのチェックイン可能時間前についてしまう、というときはのんびり陸路もいいですよ。 飛行機より断然安いし。
ただし、時間に余裕があるときに限ります。列車は20分・30分遅れは当たり前。

帰りは空路で帰るけどね。

2018年1月12日金曜日

平均リード長20kb越えって、もう珍しくない?

今年もニュースになりました、JP Morgan Healthcare Conference
英語のサイトでいろいろ書かれていますが、まとめサイト的には
1日目はここ
2日目はここ
3日目はここ
がわかりやすいか。

さて、そんな中PacBioの発表は、iSeqのような新製品ではないものの、これまでの常識を遥かに超えるものでした。CEOによると、
新しいケミストリーとソフトウェアが2月を目標にリリースされます。
今のベータテスターの結果によると、次のような結果が既に出ているとのことです。

【ゲノムシークエンス用のラージサイズライブラリの場合】
1セルあたりのスループット:12Gb
平均リード長:25kb
最長リード長:100kb

【ターゲットアンプリコンシークエンスの場合】
1セルあたりのスループット:16.5Gb
平均リード長:33.5kb
最長リード長:135kb

【Iso-Seq(完全長cDNAシークエンス)の場合】
1セルあたりのスループット:22Gb
平均リード長:37kb
最長リード長:200kb

PCR産物の場合はDNAのクオリティがゲノムDNAと比べて高いので、全体的なスループットが高くなる傾向にあります。
それにしてもゲノムDNAのライブラリで平均リード長が25kbとは、もう、昨年作ったカタログをまた作り変えないと。

さらに、2018年末に予定しているスループット8倍のセル、についてもマイク(CEOの愛称です)は触れています。
これはちょっと、私も間違ったうわさを聞いたことがあるので正確にお伝えしておきますね。

スループット8倍のセルとは、ZMWの数が今の100万から、800万になるSMRT Cellのことです。価格ではありません。
800万個のZMWでシークエンスを行い、DNA合成反応から塩基を検出するには、今よりも格段に優れた光学系部品とベースコール計算機が必要になります。
そのため、単純に新しいセルが発売されるのではなく、それに伴い装置内部のアップグレードも必要になります。これは有償になる予定です。金額は現段階では未定です。

PacBioではこの800万ZMWセルについて、アップグレードパスが用意されている、という言い方をしています。
アップグレードへの道がある、という感じでしょうか。
しかし、800万ZMWのセルが出たら、ロングリードの新しい世界が次のステージに行くでしょう。
1セルでヒトゲノムアセンブリ程度のデータが、20kb以上のロングリードで出てくるのですから。
それが後1年で可能になります(I hope)

これに備えて、今から新サービスやソフトウェア開発を始めている企業も、あるかもしれませんね。