2017年7月13日木曜日

gVolante でアセンブリを検証したくなるこれだけの理由!

Dovetailの話を数回にわたって続けましたが、ゲノムアセンブリを評価するとき、私もついN50 の値を比較してしまいます。
PacBioを使ってコンティグN50が数メガbpに達した!とか、
Dovetailを使ってスキャフォルドN50が何倍になった!とか。

でもこれは長さを評価する指標にはなりますが、アセンブリが正確にできているか、Completenessを評価するには別の指標が必要です。

アセンブリした結果の配列に、コアな遺伝子(代表遺伝子)がどれだけ含まれているか、そういった解析をする必要があるわけです。

ゲノムアセンブリの論文を読んだことのある方は、BUSCOとかCEGMAとかいう解析で、「Completeが何%、Fragmentedが何%、だからこのアセンブリはまずまず良い」なんていう文章を読んだことがあるかもしれません。
特に真核生物で、新しくゲノムを決めた、みたいな論文では必ずと言っていいほど。

このような解析を、GUIで簡単に解析できるツールが gVolante(ジーボランチ)です。
神戸理化学研究所の工樂さん、西村さん、原さんらの論文も、先日Publishされたそうです こちら

コンティグ/スキャフォルドN50の値が長ければ、それだけ連続配列が良く読まれている、と想像できます。ゲノム中にリピートが多くてかなりフラグメント化されていても、遺伝子の配列部分はそれなりに読まれているのではないか?
自分のアセンブリ結果は、どれだけの遺伝子を含んでいるのか?
そんなことを手軽にチェックできるのが、このウェブベースの簡易ツール「gVolante」

BUSCO、CEGMAの遺伝子セットのほかに、彼らが独自にまとめたCVG: Core Vertebrate Genesというのも脊椎動物評価用に使用できるようです。

使い方はとても簡単で、ゲノムアセンブリの結果FASTAファイルを、ウェブからアップロードして、「Upload File」ボタンを押す
数分待ってアップロードが終わったら、解析メニューを選びます
(私はデモサンプルにNCBIに登録されていたナメクジウオのゲノムアセンブリを選んだのですが、間違えてNon-vertebrate を選んでしまった! あれって原始的な脊索動物らしいですね。もうちょっとわかりやすい例を選べば良かった。。。 とはいえ、どんな風に動いて結果が出てくるのか、はわかりますよね?)

解析によって完了する時間は異なります。
私の場合、ナメクジウオゲノムアセンブリのCEGMA解析で、1日くらいで結果が出ました。
リンクをクリックすると・・・
素晴らしい。きれい!

結果はしばらくするとサーバーから削除されるそうなので、ダウンロードすることができます。
データは暗号化されてアップロードしたあと、すぐに削除されるらしいので安全です。

トライアルするならちゃんとサンプルを選びましょう、という教訓を得ましたが、自分でアセンブリしているデータがあるなら是非お勧めします!
お金かからないし、論文も出ていますので引用もできますし、何より簡単。
今のドラフトアセンブリのチェックと、これからスキャフォルドするかどうか迷っているひとにお勧め!

2017年7月10日月曜日

Dovetail Genomics ユーザーミーテイング報告 その 4  今日は昆虫

Dovetailユーザーミーティングレポートも今回が最後です。
今日は昆虫

昆虫は地球上でもっとも繁栄した種だと思います。
私は子供の頃は昆虫少年で、よく近所の神社や畑で虫を取ったりしていたので虫は全然平気なのですが、今の子は小さい虫でも怖がりますね。
セミやカナブンも怖がるので残念無念。

さてさて、ゲノムが読まれている昆虫は、何らかの形で人間と関わりが深いものです。
産業的には害虫や益虫のゲノムが良く読まれ、医学的には危険な病気の宿主も読まれていると思います。外来種や環境に大きな影響を与えている虫もそうかな。

そんな中、害虫として読まれている例として、Rhyzopertha dominica がありました。
和名はコナナガシンクイムシ。この甲虫は貯穀害虫と言われていて、収穫後の穀物を食べる害虫だそうです。
アメリカではこの害虫を除去するために、収穫後にも大量の農薬を撒いていて、この農薬の量は半端ないそうですよ。
できるだけ農薬量を減らすために、この害虫の性質をゲノムから明らかにしようというニーズはあるそうです。
こういうところはアメリカのアグリ系・農薬系巨大企業がいかにもやっていそうですね。

ただ、一般的に昆虫はリピートが多いそうです。
PacBioで読んでCanuでアセンブリして、MiSeqなども加えてスキャフォルディングしたあと、Chicagoデータを加えて一気につなぐということをしていました。

もう一つはピュアサイエンスから。
100x100プロジェクト、って知っていますか?
私も初めて聞いたのですが、スタンフォード大学で進めている、ショウジョウバエ100系統を、1系統につき100匹ごと、ゲノムを読むという計画です。
すでにパイロット的に10~20系統くらい、PacBioとONTで読んでいるそうな。
ググっても出てこないのでもしかしたらまだ公開されていないアレかもしれません。
でも拡散OKの発表だったので、書きました。

さてさて、日本でもDovetail関係の問い合わせが最近増えてきました。
植物、哺乳類、昆虫、魚類、微生物・・・
もう少ししたら、公開できる結果が日本からも次々出てきますよ。
ゲノムアセンブリはまだまだ成長が期待される市場です、って実感したユーザーミーティングでした!


2017年7月7日金曜日

Dovetail Genomics ユーザーミーテイング報告 その3

さてDovetail Genomicsのユーザーミーティング報告、今回は動物に注目!
ゲノムを読む必要がある動物とはどんなものがあるのかな?

真っ先に思い浮かぶのが、畜産に重要なウシとかブタとかチキンとかですね。
その辺はもちろんゲノムプロジェクトが進んでいるのですが、今回報告するのは意外な生物とその意外な理由。

今40代の方は記憶にあるかもしれませんが、私が子供の頃毎週見ていたテレビ番組に、「わくわく動物ランド」というクイズ番組がありました。
そこで登場するのは主に野生生物。その中でも私は爬虫類が大好きだったのですが、今回のDovetialユーザーミーティングでも、爬虫類のゲノムには特に惹きつけるものがありました。

先ずは、アメリカンアリゲーター
フロリダ州の河に住む大型のワニです。
アメリカンアリゲーターの面白いところは、性の決定が卵の時の水温で決まるそうです。
摂氏33度ならオス、31度未満または35度以上ならメス、33度でもエストロゲン過多の環境ならメスが生まれるらしい。
ということは、オスとメスはゲノムが同じ。しかしオスは活動的なのに対し、メスはあまり動き回らず一か所にとどまる傾向があるそうです。
このように性決定が胚の時の温度で決まる生物はほかにもありますが、そのメカニズムは良く分かっていなかったそうで。
そこでゲノムを読んでそのメカニズムを明らかにしよう! というわけです。
論文はもうありますので詳細を知りたいひとはこちらからどうぞ

ところがこの研究、野生のアリゲーターの卵を取りたいということで、そのサンプル採取がとってもユニーク。
ヘリコプターでアリゲーターの巣に舞い降り、母親アリゲーターの目を盗んで卵を採取するというもの。
命がけらしい・・・。

さて、次の爬虫類は、Tuatara
これなんだかわかりますか?
ああ、あれね、とわかったひとはかなりの爬虫類通
ヒントはニュージーランドと恐竜

和名はムカシトカゲ

まだピンと来ませんか?

私が子供の頃、恐竜が好きだったのですが、その恐竜の生き残りとされている爬虫類です。
まあ、そのころはまだ、恐竜は鳥に近いなんてことはわかっていなかったので生き残りというのは言い過ぎですが。
でも今でも、生きた化石シーラカンスと並ぶくらい、ジュラ紀からほとんど進化していない生物と言われているそうです。
昔はニュージーランド全域に生息していたらしいが今はごく一部、気温16度~21度の環境に残るのみ。絶滅危惧種です。
すごいのは、100年~200年とみられるその長寿。
ゲノムサイズはヒトより大きく4.2Gbとみられています。
ゲノムを決定したら、その免疫機能や性決定のメカニズム(温度で決定される)、鋭い嗅覚の秘密、長寿の秘密、などを明らかにしていきたいとのこと。


哺乳類では、冬眠するリス。
冬眠状態に入ると、心拍数は200-300bpm→5-10bpm、代謝機能は1~3%に、呼吸数も1~3%に、体温も37度→4度へと著しく低下するらしい。
ゲノム配列は深いカバレッジで読まれているがフラグメント化されていて、もっと繋げる必要があったので、Dovetailで大きく改善させたとのこと。
これも面白い話だった。

でも何といっても、私が一番興味をひかれたのは、サンディエゴ動物園が行っているFrozen Zooプロジェクトの話。
動物園というのは、動物の展示以外にも、種の保護や絶滅が危惧される種を後世に残す使命がある、と。
確かにそうです。動物園の役割は昔とは違ってきているでしょう。
例えばアメリカンコンドルは、個体数が非常に少なくなっていて、近親交雑の結果重篤な遺伝病(chondrodystrophy)を発症することが知られているらしいです。
このような種を保存するにはゲノム解析が必須で、どこまで病気を予防して個体数を維持できるかが問われているそうです。

また、シロサイの亜種であるキタシロサイは、アフリカになんとたった3頭しか生存していない!
そしてもはや交配するには年を取りすぎていて、近く絶滅することが確実です。
そこでサンディエゴ動物園のFrozen Zooでは、キタシロサイの体細胞からiPS細胞を作製することに世界で初めて成功。そのiPS細胞の株を冷凍保存しています。
もちろんゲノムも読んでいます。
将来的にはそのiPS細胞からキタシロサイのクローンを作る計画とのこと。

一見SFのような話ですが、アメリカではこのようなプロジェクトにちゃんと予算が付いていて、キタシロサイクローンプロジェクトは実際に動いています。
これ以外にもFrozen Zoonでは、地球上の絶滅危惧種を1000種以上、計10,000個体から細胞を採取またはセルラインを作り、冷凍保存しているそうです。
現代版ノアの箱舟といった感じですね。







2017年7月5日水曜日

Dovetail Genomics ユーザーミーテイング報告 その2

Dovetailのヘビーユーザーさんたちは、どんな生物のゲノムをシークエンスしているのでしょうか?
となりのゲノムシークエンス、気になりますよね。

発表内容はあまり詳しく公開できないので、サマリー的なこと、私が個人的に「へー」って思ったことを書きます。

【植物】
さすが農業大国アメリカ。農産物は大概ゲノムを読まれています。
といっても難しいゲノムはあるわけで、今回発表があったのは、レタスとかピスタチオ、ブドウなどの2倍体がメイン。
レタスはそうとうしっかり読まれています。PacBioを使ってコンティグを作り、Dovetail ChicagoとHi-Cを使ってスキャフォルドを伸ばし、10Xを使ってフェージング、連鎖解析できれいに仕上げる。
先日のDovetailウェビナーにも登場した、UC Davisの Dr. Richard Michelmoreは、本当にゲノム読むのが好きだそうで、すごい楽しそうに発表していました。

ブドウといえばワイン。先日もFalcon Unzip の記事で書きましたが、UC Davisの Dr. Dario Cantu によるカベルネ・ソーヴィニョンのゲノムアセンブリの話。
この品種はF1品種だということは先日のブログでも書いた通りです。
ちなみに白ブドウのChardonnay(シャルドネ)はPinot Noir(赤ワイン用でも超有名)とGouais blanc(白)の掛け合わせF1品種。知っていたアナタは相当ワイン通です。
さて、ワイン用のブドウは他の農産物と違って、新品種を作ることはあまりしないらしい。昔から同じ品種を接ぎ木でクローンを作って増やしている。
なぜか?

それは、ワインというのは、世界中で共通して、名前で売れる商品だからです。
どんなに素晴らしい品種を新たに作っても、全世界のマーケットに浸透させるには莫大な手間とコストがかかる。
じゃあゲノムを読む必要は無いんじゃないか? と思ったんですが、クローンでも産地によってゲノムはだんだん異なってくるので、香りとか環境ストレス耐性とかに関係する遺伝子を知ることは、クローンごとの特徴を明らかにするためとても大事らしいです。

ちなみにDarioさんは数年前、新婚旅行に東京と京都に来たほど日本が大好き。
話していて楽しいひとでした。

倍数体のゲノムはどうでしょう?
これはPlant Animal Genomics学会でも発表がありましたが、倍数体にもモデル生物はあります。
Brachypodium hybridum という草は、異質4倍体 (2n=30, 509Mb)。
これはB. distachyon (2n=10, 272Mb) と B. stacei (2n=20, 234Mb) という2つの2倍体の種が進化の過程で合体?して4倍体になったらしいです。
この辺は発表者のDr. John Vogel の論文で詳しく書かれています。
ゲノムをアセンブリする際に、Meraculousというアセンブラーを使っています。
これはDovetail社でドラフトアセンブリする際にも使われているDiploid awareなアセンブリです。

さて、次回は哺乳類など。
お楽しみに

2017年7月4日火曜日

Dovetail Genomics ユーザーミーテイング報告 その1

今日は少し、Dovetailのユーザーミーティングに参加した報告をしたいと思います。
時々PacBioの話題も出てきますよ。

開催された場所は、カリフォルニア州サンタクルーズにあるリゾートホテル。
海外の会社はユーザーミーティングを、ホテルに泊まり込みで2日間とかで行うことが多いですね。

前日は夜にレセプション。初めて会う人がほとんどなので、お酒の力で先に何人かと仲良くなっておくことは良いことです。日本でもやったらいいかも。
準備しているのはロジ担当のニッキー
後ろではもう飲みが始まっている(時刻は午後7時くらい?)
ホテルは街の中心からは離れていて、森があったりして自然豊か!
わかりにくいけどホテルの一部
この先200m歩いていくと会場がある。
同じホテル内なのにめちゃ広い
ホテルの裏にある、自由すぎるハイキングコース
野ウサギも普通にいるほど自然豊か
当日は朝食をみんなで一緒にとってから、9時から開始。
そうです。2日間みんなと共同生活なんです。
でもそこはアメリカ人。皆さん時間には自由です。

会場のテーブルはこの形
Dr. Ed Greenによる発表
彼はDovetailのFounderのひとり
10名くらいのユーザから、いろいろな研究・プロジェクトの発表がありました。
皆さん、Dovetailを使ってはいますが、それ以外のテクノロジーも当然試しているわけで、多かった順にあげると、
  1. イルミナショットガン (これは当たり前というか、みんなドラフトでやっていた)
  2. PacBio RSII(発表者のほぼ全員が使用。Sequelデータはまだ登場せず。これからでしょうね)
  3. 10X(価格が安いからとりあえず10Xで試してみるという意見が多かった)
  4. MinION(最近使ってみた、という発表が1人)
  5. BioNano(発表では無かったけれどQ&Aの時に話したひとが1人)
それぞれの技術の長所短所は、このブログを読んでいる皆さんならご存知でしょう。
10Xのランニングコストが安いというのは、恥ずかしながら知らなかったのですが、アメリカの非モデル(特に植物)ゲノムアセンブリ業界?では、とりあえず安いから10X試す、というのが定石らしいです。レタスゲノムの先生もそう申しておりました。

ユーザーミーティングでどんな発表があったのか。
続きは「その2」をこうご期待!

2017年7月3日月曜日

PacBioが存在感を見せた! 今年の国際ゲノム会議 





先週、6月27日から29日までは、2年に一度の国際ゲノム会議がありました。
この「会議」は、いわゆる学会(200~300人くらい?)で、ゲノム関係の学会としてはコンパクトにまとまっていて、テクノロジーとサイエンスが半々くらいのワークショップ、という感じがします。
この業界のそうそうたる先生方が参加されるので、出展する企業側としても効率良く営業活動ができる。

アカデミアの発表は、ポスターも含め、今年はPacBioのロングリードが目立っていましたよ。
確実に2年前よりも、ロングリードを使ったゲノム解析、メタゲノム解析、メディカルへの応用などの発表が増え、存在感が大きくなってきた気がします。

トミーデジタルバイオロジーからは、招待講演者としてMount SinaiのDr. Bobby Sebraを呼び、
Emerging Long Read and Single Cell Genomics Toward Highly Resolved Medical Genomics and Clinical Research
という内容で、彼らが実際にラボで行っている、ロングリードを使ったクリニカルアプリケーションへの試みを中心に話してもらいました。

また、テクノロジーセミナーでは、PacBioのCSO、Jonas KorlachがSMRTテクノロジーの今の使われ方と他のテクノロジーとの比較、今後の方向性について発表しました。
この話は先日のウェビナーとほぼ同じです。
聞きたい、というかたは録画したリンクをお伝えしますのでお知らせください。

アカデミアからの発表でも、ゲノムのメチレーションをPacBioで読んだという話や、セントロメア領域を読んでいるという話、ゲノムのリピート部位をロングレンジでキャプチャーするという話がありましたが、そんな中、ベストポスター賞を取ったのもPacBioを使った発表でした。

東京大学の西嶋傑さんは、PacBioのSMRTシークエンスを使って、Gut Microbiome のメタゲノム解析を発表され、見事ベストポスター賞を受賞されました!
論文投稿中ということで、ここでは内容には触れませんが、これはまさにPacBioだからこそできた研究です。
Jonas(PacBioのCSOのことですね)も、とっても喜んでいました。

さて、この勢いを保ったまま、今年も後半戦。
頑張っていきます!