2017年5月30日火曜日

PAG Asia 2017 ソウル(1)

韓国のソウルに来ています。ほぼ初めてです。
PAG Asiaは毎年シンガポールでやっていましたが今年は韓国。
場所はコンラッドホテルという超高級ホテル。

月曜は、PacBioのスポンサードセッションでした。
2人のゲストスピーカーを呼んでの話。
テーマは、コーヒーのゲノムアセンブリと、もうひとつはニワトリのIso-Seq
ニワトリの方は私も少しNGS現場の会で紹介しました。
コーヒーゲノムは前に聞いた時よりもだいぶ進展があったなあ、という感じです。

現在世界のコーヒー生産量の7割を占める、C. arabica (アラビカコーヒー)を読むんですが、これは4倍体なんですよね。
これは、C. eugenioidesC. canephora を先祖に持つそうです。
C. eugenioides は、もうコーヒー生産には使われていないそうで(もうあまり存在しない、って言っていたっけ?ごめんなさいあいまいで)、ゲノムサイズは0.67Gb
C. canephora は、arabicaの2倍のカフェインを持つようなパンチの効いた種で、ゲノムサイズは0.7Gb
お互い2倍体がはるか昔にくっついて4倍体の arabicaが生まれ、こちらゲノムサイズは1.3Gb
でも、4倍体は読みにくいので、ここから2倍体の不稔の種を作ります。
この2倍体のサンプルを読んだとのこと。
もちろん、arabica だけでなく、両親の eugenioidescanephoraも読んだ。

PacBioで十分量のカバレッジ読んで、Falcon
その後、arabicacanephoraについてはDovetail Hi-Cも行う。
スキャフォルドを作った後は、Bio Nanoで物理マッピング読んでさらなるスキャフォルド。
最後に連鎖解析で整える。という流れ。

Hi-Cをやるからには、生の組織が必要なので、生きた細胞が取れなかったeugenioidesはHi-Cができなかったらしいです。

Hi-C終わった時点でもう、スキャフォルドのN50 で32.74Mb とか 45.84Mbとか、とんでもない値なんですが、結局BioNanoでやり直すと値が小さくなるんですね。
やはり、ひとつの技術に頼るよりも、2つ以上の技術でバリデーションしたほうが良いのかもしれませんね。
この場合は、DovetailのHi-Cと、BioNanoの物理マッピングです。

毎年ネスレのコーヒーゲノムアセンブリの話を聞いているんですが、ついにアラビカから両親の系統種まで読んだか、という、感慨深い気がしました。
明後日のPacBio ユーザーミーテイングでもこの話はあったっけな?
またその辺の報告をお楽しみに!

さて、コーヒーといえば、ソウルはカフェが多いので有名です。
スタバのような禁煙のお洒落なカフェが、私の泊まっているホテルの周りにはたくさんあります。
タイムズスクエア、っていう場所です。
でも、カフェは正直、女子率が高い! 
男子は兵役があるから、かな? 女の子が目立ちます。

なんやかんやホテルに戻り、ベッドに入る直前に呼び出され、夜の11時半までPacBioのメンツ7人くらいで飲んでました。
便利だからと同じホテルにするのはいいけど、飲みに付き合わないといけない(まあこれも楽しいんだけどね)。
ということで、明日もあるので早めにお開きでした。

2017年5月26日金曜日

夏らしい話題 ヒマワリゲノム解読完了

まだ5月ですが夏の話題です。
みなさんヒマワリというと、何を思い浮かべますでしょうか?

私は小学生の時に種から育てた記憶と、花が枯れた後に取れた種をハムスターの餌に与えていた記憶が強いです。
でも、最近では植物油として売られているし、アメリカではオーガニックの食用ヒマワリの種がスーパーで売ってました(日本でも売ってるか)。 
あと、なんといってもあの太陽に向いているイメージが強いので、企業やお店の名前にも使われますね。 「ひまわりクリーニング」とか、西日本でよく見る「スーパードラッグ ひまわり」とか。

長々とすいません、本題に入ります。
先日、Natureに出たのがヒマワリゲノム!
論文はこちら

この論文、何がすごいかって、その迫力と規模。
RSIIのSMRT Cellを何と407個使って、102カバレッジのデータを出力。
3,200万本の超ロングサブリード(平均10.3kb、N50=13.7kb)でアセンブルして想定ゲノムサイズ(3.8Gb)の80%、およそ3Gbをカバー。
使ったアセンブラーはPBcR wgs8.3rc1で、Falconではありません。
Contigの数は14,000本
N50=およそ400kb

32万個以上のBACクローンから12.5Xの物理地図が作られ、QTL解析などをもとに、17本の擬似染色体が作られた。それらは遺伝子の97%をカバーした。

ここまでの仕事は大変だったと想像できます。
せっかくなので、SequelとDovetailを使うとどんな感じでできるかと、妄想してみました。

Sequel 
セルあたりの出力=6Gbと推定(公式には5~8Gbと言っているけれど控えめにしてみた)
サブリードの平均長やN50はRSIIと同じと仮定

3.8Gb/genome x 102 coverage = 387.6 Gb /genome
387.6 Gb / 6 Gb/Cell = 64.6 Cells(65セル)

4セルランを16回または8セルランを8回、追加1セルラン
大体、かかる時間は1ヶ月++
出力したデータはFalcon + unzipでアセンブリ
計算機にもよるけれど恐らく1週間程度?

Dovetail
PacBioである程度ドラフトアセンブリが完成したと仮定
ContigのN50は400kbと仮定

100kb以上の高分子DNAを抽出
ゲノムサイズは3.8Gbで複雑なゲノムらしいので、Chicagoライブラリは3種類作る
100x程度の物理カバレッジをとるためHiSeq Xのランは2レーン行う
PacBioのドラフトアセンブリとDovetail Chicagoを合わせてHiRiseスキャフォルディング
ここまででおよそ2か月

た、ぶ、ん、

スキャフォルドをしたあとのN50 は、メガベース単位

で、その次にHi-Cを加える
Chicagoのときと同じく、しかし今度は in vivo でライブラリを作製
時間短縮のため、Chicagoと同時にライブラリを作成してシークエンスしたと仮定すると、Dovetail全体でおよそ4か月

Hi-Cを加えて、擬似染色体まで完成!








2017年5月25日木曜日

結核菌のリファレンスの間違いをPacBioで補正

NGS現場の会も無事終わり、ほっと落ち着いたのもつかの間の通常業務でした。
アカデミアの方へ質問!
企業のひとはこういう学会・展示会の後、何をしていると思いますか?

答え:もらった名刺の整理と頂いた質問への対応、営業ならお願いされた見積もりの作成や次のアポの準備、そして、展示会場から届いた配り残ったチラシや装飾品の片づけ。
でもこれも慣れました。

と愚痴はこれくらいにして、私がしゃべった2つのスポンサードセッション、PacBioとDovetailのスライドが欲しい方、会場でご依頼された方以外で欲しい方がいらっしゃればお知らせください。リンク送ります。

さて、本当はスライドに入れたかったけれど準備不足で抜いてしまったネタがあります。
それはこちらの論文
結核菌のゲノムアセンブリです。
そういうと、今まで何回も紹介してきたとお思いでしょうが少し違います。
なんと、今までのリファレンスが間違っていたということを示した例だからです!
毒性の高いH37Rv株とそうでないH37Ra株。H37Ra株の方は2008年にアセンブリされて以来更新されておらず、またこの株は毒性遺伝子同定のための、リファレンスに使われていたとのこと。
PacBioで読んだところ、その株特有の変異は、これまでのリファレンス配列で示されていた変異とされていた箇所の、実は半分ほどだったという驚きの結果!

結核菌はGCリッチです。ゲノムの80%ほどがGとCでできています
ゲノムの平均GC含量は60%超、ゲノムの場所によっては80%に達するところにもあるそうです。
PCRが必ず入るサンガー法ではどうしても読めないところがあるのだと思います。

PacBioのSMRTシークエンスは、ご存知の通り、GもCもまんべんなく読めることが特徴で、その時のエラーもランダムに入る。
リファレンスのエラーをも直してしまうなんて驚きですね。



2017年5月6日土曜日

NGS現場の会に参加しないといけない理由

このブログを見ているかたは、NGS現場の会ももちろんご存知かと思います。
今年は仙台で行われますよね。NGS現場の会 第五回研究会
私たちももちろん、展示ブース、セッション、ポスターのフルコースで臨みます。

まずは展示ブース
わがトミーデジタルバイオロジーのブースは23‐24番です!
このブースは今、デザインを作り直しています。
今までは黒がベースのこんなのでしたが
RSという名前はもうない(RSIIになった時点で変えるべきだったけど)し、社名もPACBIOに変わったので一新することにしました。
白をベースにしたシンプルな感じです。お披露目までのお楽しみに!

ブースでは、トミーデジタルバイオロジーの社員D君による、超高速NGS解析サーバDRAGENのデモを予定しています。
デモは恐らくポスターセッションが盛り上がってくる19時ごろ。あとはゲリラ的?ではないですが、やります。
Exomeなら2,3分で終わってしまう世界を是非ご覧あれ。

スポンサードセッションは、

  • 初日(22日)は、午後3時30分からA会場にて、PacBioの話。「PacBioさらなる飛躍の2018年、これからのロングリード」
  • 2日目(23日)は、午前11時15分からC会場にて、ゲノムアセンブリの話。「つなげてみよう、あなたのコンティグ! Dovetail Genomicsのご紹介」

この2つの話は、実はつながっているんです。
片方しか聞けなくてももちろん話はわかるようにしますよ。
でもどちらも、あっと驚くような話題があるはずです!

まだスライドは出来上がっていませんが、情報たくさん詰める予定です。
できたらPDFにして誰でもダウンロードできるようにしますので。
特にこの時期、5月に入って凄い論文がどんどん出てくるもんだから、スライドにまとめるのが大変!

ポスターは社内から4名+1名で参加登録済みです。
PacBioネタ3つ(アセンブリ、Cas9エンリッチメント、データ解析)
Swift Bioネタ1つ(分子バーコード)
Dovetailネタ1つ(新技術サービスの紹介)

会場で皆さまにお会いできることを社員一同、楽しみにしています!

では