2017年6月15日木曜日

New Maize Reference Genome 出た!

問題です! 
世界三大穀物といえば、コムギ、コメ、そしてトウモロコシですが、
このうち、一番生産量が多いのはどれ?



正解はトウモロコシ
アメリカ農務省のレポートWorld Agricultural Supply and Demand Estimates 2017年6月版によると、2015/2016年確定値では全世界の生産量は、
コムギが 7億3700万トン
コメが 4億7200万トン

トウモロコシはなんと、9億6800万トン(2016/2017年推定値は10億6700万トン!)で断トツ1位。
うちアメリカは3億4600万トンを生産し世界一。
そのほとんどを国内で消費し、4800万トンを輸出しているらしい。
輸出量もアメリカが世界一(2016/2017年推定値は5600万トンだそうです)。

余談ですがこの報告書は、世界最大の農業大国アメリカが、世界の主要農産物についてまとめた統計報告みたいです。私も検索していて見つけたのですが、非常に細かくて驚きました。
もう一つ、日本語のサイトとしては、農畜産業振興機構の海外現地報告がとても情報量豊富です。
トウモロコシではここの「米国におけるトウモロコシ生産の現状」が読んでいて面白かった。
アメリカ国内で、トウモロコシはそれまで飼料用途が一番多かったが、2005年ごろからバイオエタノール用途が急増(法律で一定以上のバイオエタノールを販売することを石油販売業者に義務つけられたため)、今は飼料用とエタノール用が同じくらいらしい。
後はスターチ、食用ですね。でもこれらはほんのわずか(10%未満)。

前置きが長くなりましたが、トウモロコシゲノムが新たに解読され、前のリファレンスよりかなり改善されたバージョン4が、Natureに発表されました。
Improved maize reference genome with single-molecule technologies

これはもちろん、PacBioを使って読んでアセンブリした素晴らしい成功例です。
RSIIのときの仕事です。
B73系統のゲノムDNAは15kb~40kbにシェアリングされ、20kbプロトコルでライブラリ作製。
試薬はP6C4を使用し、6時間Movieでシークエンス。
65カバレッジ分のデータを得て、FalconとPBcR+MHAPのアセンブラーでパラメータを変えながらいくつかアセンブルをしている。
得たコンティグは、Irys(BioNano)のオプティカルマッピングデータに合わせて、スキャフォルディング。
さらにBACデータも使用してPseudomoleculeを作っている
出来たScaffoldのギャップは、もちろんPacBioのロングリードでできるだけ埋めている(PBJelly)。

この仕事の凄いのは、コンティグN50をこれまでの52倍長くしてメガベースにしたのもさることながら、連続配列として、トータル1.2Gbのレトロトランスポゾンの存在を明らかにしたこと。
その約半数は、他のトランスポゾンの中に挿入された「入れ子」状であったという。
これは私の想像ですが、トランスポゾンって、案外ランダムに入るわけでは無いのかもしれませんね。
一度入ったトランスポゾンの中にわざわざ入り込んで、その働きを邪魔するトランスポゾンがあったりして。
何のためか、はわかりませんよ。

ただひとつ、このゲノムプロジェクトで残念なのは、DovetailのChicagoやHi-Cを使っていないこと。
これらを使えばもっと早く結果が出ていたかもしれないし、宣伝に使えたのに(はい、私の都合です)。

この仕事、論文になる前にPacBioとBioNanoのケーススタディとして昨年公開しています。
こちらからダウンロードできるので是非どうぞ。



2017年6月4日日曜日

カベルネソーヴィニヨンのアセンブリでFalcon‐Unzipを知ろう!

皆さんワインは飲みますか?
赤ワイン、白ワイン、私は正直あまり詳しくありません。
飲みやすさと香りで、あとは価格で選んでしまいます。

でもメルローやシャルドネ、という名前を聞いたことはありました。
これらはブドウの品種です。
同じように現在世界中で広く栽培されているブドウ品種に、カベルネ・ソーヴィニョンというものがあります。
これは Sauvignon Blanc という白ブドウと、Cabernet Franc という黒ブドウ品種のF1だそうです。
F1なので、そのゲノムはとてもヘテロ性が高いことが想像できます。


このゲノムをPacBioで読んで、アセンブリした例があります。
PacBioのCase Studyにも紹介されているし、私も何度かこの話題をセミナーなどで紹介しているので聞いたことがあるひともいるでしょう。

ヘテロ性が高い、ということでアセンブラーには Falcon unzip が使われました。

論文はフリーでここから全文がとれます。

Falcon unzipのコンセプトが説明されているので、二倍体ゲノムのアセンブリを考えているひとはまずチェック!
いきなりFalcon unzipの論文に行くよりも敷居が低いと思います。
そしてワインについても勉強できる。知ったかぶりできる、良いペーパーだと思いますよ。

では、次からカベルネ・ソーヴィニョンを飲むときがあったら、ヘテロ性とアセンブリの関係を考えることにしましょう!

2017年5月30日火曜日

PAG Asia 2017 ソウル(1)

韓国のソウルに来ています。ほぼ初めてです。
PAG Asiaは毎年シンガポールでやっていましたが今年は韓国。
場所はコンラッドホテルという超高級ホテル。

月曜は、PacBioのスポンサードセッションでした。
2人のゲストスピーカーを呼んでの話。
テーマは、コーヒーのゲノムアセンブリと、もうひとつはニワトリのIso-Seq
ニワトリの方は私も少しNGS現場の会で紹介しました。
コーヒーゲノムは前に聞いた時よりもだいぶ進展があったなあ、という感じです。

現在世界のコーヒー生産量の7割を占める、C. arabica (アラビカコーヒー)を読むんですが、これは4倍体なんですよね。
これは、C. eugenioidesC. canephora を先祖に持つそうです。
C. eugenioides は、もうコーヒー生産には使われていないそうで(もうあまり存在しない、って言っていたっけ?ごめんなさいあいまいで)、ゲノムサイズは0.67Gb
C. canephora は、arabicaの2倍のカフェインを持つようなパンチの効いた種で、ゲノムサイズは0.7Gb
お互い2倍体がはるか昔にくっついて4倍体の arabicaが生まれ、こちらゲノムサイズは1.3Gb
でも、4倍体は読みにくいので、ここから2倍体の不稔の種を作ります。
この2倍体のサンプルを読んだとのこと。
もちろん、arabica だけでなく、両親の eugenioidescanephoraも読んだ。

PacBioで十分量のカバレッジ読んで、Falcon
その後、arabicacanephoraについてはDovetail Hi-Cも行う。
スキャフォルドを作った後は、Bio Nanoで物理マッピング読んでさらなるスキャフォルド。
最後に連鎖解析で整える。という流れ。

Hi-Cをやるからには、生の組織が必要なので、生きた細胞が取れなかったeugenioidesはHi-Cができなかったらしいです。

Hi-C終わった時点でもう、スキャフォルドのN50 で32.74Mb とか 45.84Mbとか、とんでもない値なんですが、結局BioNanoでやり直すと値が小さくなるんですね。
やはり、ひとつの技術に頼るよりも、2つ以上の技術でバリデーションしたほうが良いのかもしれませんね。
この場合は、DovetailのHi-Cと、BioNanoの物理マッピングです。

毎年ネスレのコーヒーゲノムアセンブリの話を聞いているんですが、ついにアラビカから両親の系統種まで読んだか、という、感慨深い気がしました。
明後日のPacBio ユーザーミーテイングでもこの話はあったっけな?
またその辺の報告をお楽しみに!

さて、コーヒーといえば、ソウルはカフェが多いので有名です。
スタバのような禁煙のお洒落なカフェが、私の泊まっているホテルの周りにはたくさんあります。
タイムズスクエア、っていう場所です。
でも、カフェは正直、女子率が高い! 
男子は兵役があるから、かな? 女の子が目立ちます。

なんやかんやホテルに戻り、ベッドに入る直前に呼び出され、夜の11時半までPacBioのメンツ7人くらいで飲んでました。
便利だからと同じホテルにするのはいいけど、飲みに付き合わないといけない(まあこれも楽しいんだけどね)。
ということで、明日もあるので早めにお開きでした。

2017年5月26日金曜日

夏らしい話題 ヒマワリゲノム解読完了

まだ5月ですが夏の話題です。
みなさんヒマワリというと、何を思い浮かべますでしょうか?

私は小学生の時に種から育てた記憶と、花が枯れた後に取れた種をハムスターの餌に与えていた記憶が強いです。
でも、最近では植物油として売られているし、アメリカではオーガニックの食用ヒマワリの種がスーパーで売ってました(日本でも売ってるか)。 
あと、なんといってもあの太陽に向いているイメージが強いので、企業やお店の名前にも使われますね。 「ひまわりクリーニング」とか、西日本でよく見る「スーパードラッグ ひまわり」とか。

長々とすいません、本題に入ります。
先日、Natureに出たのがヒマワリゲノム!
論文はこちら

この論文、何がすごいかって、その迫力と規模。
RSIIのSMRT Cellを何と407個使って、102カバレッジのデータを出力。
3,200万本の超ロングサブリード(平均10.3kb、N50=13.7kb)でアセンブルして想定ゲノムサイズ(3.8Gb)の80%、およそ3Gbをカバー。
使ったアセンブラーはPBcR wgs8.3rc1で、Falconではありません。
Contigの数は14,000本
N50=およそ400kb

32万個以上のBACクローンから12.5Xの物理地図が作られ、QTL解析などをもとに、17本の擬似染色体が作られた。それらは遺伝子の97%をカバーした。

ここまでの仕事は大変だったと想像できます。
せっかくなので、SequelとDovetailを使うとどんな感じでできるかと、妄想してみました。

Sequel 
セルあたりの出力=6Gbと推定(公式には5~8Gbと言っているけれど控えめにしてみた)
サブリードの平均長やN50はRSIIと同じと仮定

3.8Gb/genome x 102 coverage = 387.6 Gb /genome
387.6 Gb / 6 Gb/Cell = 64.6 Cells(65セル)

4セルランを16回または8セルランを8回、追加1セルラン
大体、かかる時間は1ヶ月++
出力したデータはFalcon + unzipでアセンブリ
計算機にもよるけれど恐らく1週間程度?

Dovetail
PacBioである程度ドラフトアセンブリが完成したと仮定
ContigのN50は400kbと仮定

100kb以上の高分子DNAを抽出
ゲノムサイズは3.8Gbで複雑なゲノムらしいので、Chicagoライブラリは3種類作る
100x程度の物理カバレッジをとるためHiSeq Xのランは2レーン行う
PacBioのドラフトアセンブリとDovetail Chicagoを合わせてHiRiseスキャフォルディング
ここまででおよそ2か月

た、ぶ、ん、

スキャフォルドをしたあとのN50 は、メガベース単位

で、その次にHi-Cを加える
Chicagoのときと同じく、しかし今度は in vivo でライブラリを作製
時間短縮のため、Chicagoと同時にライブラリを作成してシークエンスしたと仮定すると、Dovetail全体でおよそ4か月

Hi-Cを加えて、擬似染色体まで完成!








2017年5月25日木曜日

結核菌のリファレンスの間違いをPacBioで補正

NGS現場の会も無事終わり、ほっと落ち着いたのもつかの間の通常業務でした。
アカデミアの方へ質問!
企業のひとはこういう学会・展示会の後、何をしていると思いますか?

答え:もらった名刺の整理と頂いた質問への対応、営業ならお願いされた見積もりの作成や次のアポの準備、そして、展示会場から届いた配り残ったチラシや装飾品の片づけ。
でもこれも慣れました。

と愚痴はこれくらいにして、私がしゃべった2つのスポンサードセッション、PacBioとDovetailのスライドが欲しい方、会場でご依頼された方以外で欲しい方がいらっしゃればお知らせください。リンク送ります。

さて、本当はスライドに入れたかったけれど準備不足で抜いてしまったネタがあります。
それはこちらの論文
結核菌のゲノムアセンブリです。
そういうと、今まで何回も紹介してきたとお思いでしょうが少し違います。
なんと、今までのリファレンスが間違っていたということを示した例だからです!
毒性の高いH37Rv株とそうでないH37Ra株。H37Ra株の方は2008年にアセンブリされて以来更新されておらず、またこの株は毒性遺伝子同定のための、リファレンスに使われていたとのこと。
PacBioで読んだところ、その株特有の変異は、これまでのリファレンス配列で示されていた変異とされていた箇所の、実は半分ほどだったという驚きの結果!

結核菌はGCリッチです。ゲノムの80%ほどがGとCでできています
ゲノムの平均GC含量は60%超、ゲノムの場所によっては80%に達するところにもあるそうです。
PCRが必ず入るサンガー法ではどうしても読めないところがあるのだと思います。

PacBioのSMRTシークエンスは、ご存知の通り、GもCもまんべんなく読めることが特徴で、その時のエラーもランダムに入る。
リファレンスのエラーをも直してしまうなんて驚きですね。



2017年5月6日土曜日

NGS現場の会に参加しないといけない理由

このブログを見ているかたは、NGS現場の会ももちろんご存知かと思います。
今年は仙台で行われますよね。NGS現場の会 第五回研究会
私たちももちろん、展示ブース、セッション、ポスターのフルコースで臨みます。

まずは展示ブース
わがトミーデジタルバイオロジーのブースは23‐24番です!
このブースは今、デザインを作り直しています。
今までは黒がベースのこんなのでしたが
RSという名前はもうない(RSIIになった時点で変えるべきだったけど)し、社名もPACBIOに変わったので一新することにしました。
白をベースにしたシンプルな感じです。お披露目までのお楽しみに!

ブースでは、トミーデジタルバイオロジーの社員D君による、超高速NGS解析サーバDRAGENのデモを予定しています。
デモは恐らくポスターセッションが盛り上がってくる19時ごろ。あとはゲリラ的?ではないですが、やります。
Exomeなら2,3分で終わってしまう世界を是非ご覧あれ。

スポンサードセッションは、

  • 初日(22日)は、午後3時30分からA会場にて、PacBioの話。「PacBioさらなる飛躍の2018年、これからのロングリード」
  • 2日目(23日)は、午前11時15分からC会場にて、ゲノムアセンブリの話。「つなげてみよう、あなたのコンティグ! Dovetail Genomicsのご紹介」

この2つの話は、実はつながっているんです。
片方しか聞けなくてももちろん話はわかるようにしますよ。
でもどちらも、あっと驚くような話題があるはずです!

まだスライドは出来上がっていませんが、情報たくさん詰める予定です。
できたらPDFにして誰でもダウンロードできるようにしますので。
特にこの時期、5月に入って凄い論文がどんどん出てくるもんだから、スライドにまとめるのが大変!

ポスターは社内から4名+1名で参加登録済みです。
PacBioネタ3つ(アセンブリ、Cas9エンリッチメント、データ解析)
Swift Bioネタ1つ(分子バーコード)
Dovetailネタ1つ(新技術サービスの紹介)

会場で皆さまにお会いできることを社員一同、楽しみにしています!

では

2017年4月28日金曜日

SMRT Link 4.0公開

PacBioの解析ソフトウェアといえばSMRT Analysisですが、これは基本無料のソフトウェアです。
「基本」というのは、ダウンロードして使うのはご自由にどうぞ、という意味です。
ただ、使い方やサポートとなると、PacBioの装置を持っているかたはもちろん優先して行いますが、そうでない方は後で・・・ということになってしまいますことはご理解ください。
その代わり、GitHubや、ダウンロード資料、無料の解析ワークショップなどは、定期的にアップデートしていますのでそちらをご覧ください。

と、言い訳っぽいことを書きましたが、正直、無料のソフトなので。

さて、Sequel用にはSMRT Linkというパッケージソフトが用意されています。
その中にはもちろん、Sequelデータの解析ソフト、SMRT Analysisが含まれています。
Sequel用のSMRT Linkは2017年4月現在、バージョン4.0で、ここからダウンロードできるようになりました。

チュートリアルなどのビデオやインストール資料も、少しずつですが充実してきています。
と、いうことですが、まだSMRT Linkはインストールにハードルが高いかもしれません。
サーバのスペックはかなりのものを要求します。
推奨は、ジョブエンジンで動くクラスターサーバです。
例えば、ヘッドノードは64Gbメモリ、32コアCPU、計算ノードは256Gbメモリ、1Tbのローカルディスク容量、これが6ノードで合計96CPU コア
この例は、大型ゲノムをアセンブリして、1週間くらい待てるお客さん向けです。

でも、
Falconも入っているし、この環境を作ってからなら、Falcon Unzipもうまく動くようになったという報告もあるので、うまく動かないで困っているひとは先にSMRT Link 4.0をいれてみることをお勧めします。

まずは資料やらチュートリアルビデオやらを見てくださいね!