2015年10月10日土曜日

ASHG2015

-------以下の記事に誤字・脱字がありましたので訂正するとともに、最後のほう、少し文章も変えました------

今年もアメリカ人類遺伝学会に行ってきました。
場所はボルチモア。ここは、歴史があるきれいな街並みでした。
夜は気をつけないといけない、のはアメリカの都市ならでは、かな。

さて、今年もいろいろ話題はあったと思いますが、私が気になったのは、いよいよNGSが臨床に現場に使われてきたということ。
2、3年前から何となく、クリニカルシークエンスとか言われていましたが、やってみて、いろんな問題点が見つかった。
そのひとつは、ゲノムのリファレンス配列が無いということ。

人種ごとのリファレンスが無い。
これは今までも言われてきたことですが、研究ではなく、クリニカルに用いるためには、高精度のリファレンス配列が必要です。
そのための技術、が、3年前は無かったに等しい。

そして今、ようやく技術が出揃ってきて、ヒトのハプロイドゲノム(いわゆるプラチナゲノムCHM1とかCHM13とか)や、Diploidゲノムのリファレンス作りが可能になってきました。

今回、高精度のリファレンスを作ろう! というときに必ずといって良いほど出てきたテクノロジーが、PacBioとBioNano
これは前にも書きましたが、

  1. PacBioで読んでアセンブルして、
  2. できたContigとBioNanoのMapデータをHybrid Assemblyして、
  3. すごく長い、Scaffoldを作り、
  4. さらにPacBioでGapを埋めて
  5. プラチナレベルのリファレンスを作る
というものです。
これをやろうとすると、どれだけ読めば良いか?
いくつかセッションを聞いた話や、実際PacBioやBioNanoの方とディスカッションして聞いたところ、
PacBioは30x~60x
BioNanoは60~90x

これくらい読めば、高精度の長いアセンブリ(一例としてはCHM13の場合、Contig数254、N50=20.79Mb、最長Contig=83Mb)が実現できるとのことです


まさに、シークエンスとPhysical Mappingの融合
PacBioもシークエンスレベルでは素晴らしい成果を出します。
でも、100kb以上の大きなSegmental DuplicationやInversionはさすがに読みぬくことは困難。
そこで、Physical MappingのBioNanoの登場、というわけです!

上記のスライドは、BioNanoのディナーパーティにて発表されたプレゼン。
Physical Mappingがゲノム決定にいかに大事か、ということがわかりました。

間もなく、世界のいろいろなところから、人種ごとのリファレンス、それもかなり高精度のリファレンスゲノムが発表されるでしょう。プラチナレベルで。
やっぱり大事なんですね、ゲノムは。
日本でも大型ゲノムを、PacBioとBioNanoを駆使して、ハイブリッドアセンブリした発表が出ないかなあ、と思う今日この頃


さて、PacBioのブースは最近4年間のASHGで一番大きなものでした。

初日は、PacBio創始者の1人、Steve Turner氏、PacBioのCEO Mike Hunkapiller氏、も勢ぞろい。ブースは常に人大杉状態!

そんな中この、新型マシンの問い合わせはひっきりなしでした。
あ、そうそう、BioNanoのIrysも、スループットが2倍になったそうです。
これで、PacBioのデータとBioNanoのデータを使ったHybrid Assembly の解析を誰でもできるようになったということ。
じゃあ、実際解析はどこでどうするの?

そんなときは、DNANexus !!

このクラウドソルーション型のNGS解析サービスは、既に、PacBioとBioNanoのHybrid Assemblyパイプラインを装備。
クリック&ドラッグ、ボタンをぽち
これでヒトのアセンブリ→BioNanoとのアセンブリ、バリアントコースまでが、2週間で終了!!!だそうです。

すごくないですか? 計算資源で困っている方はこういうクラウドサービスを利用するもの手ですね。
私もDNAnexusの方に知り合いは多いので、何かあれば連絡下さい。

他にも解析サービス会社はあると思うので今度シェアします。

あーあ、来週は日本での人類遺伝学会か。
Sequelの日本での反応はどうかな?
私は2日目から本格参加します。
15日はBioJapanのほうに出ます。
こちらでも、PacBio関連の発表がありますよ。
BioJapanに行かれる方は、是非チェックしてみて下さい。


2015年10月5日月曜日

40kbライブラリ&6時間シークエンス最強説

「40kbライブラリと6時間シークエンス」で、驚きのアセンブル結果!
本当は10月最初の話題はこれにするつもりだったのですが、新型機械の発表があったもんだから、インパクトに欠けてしまいました。

でも、8月に実際シークエンスをしてみて、アセンブルしてびっくりしたのでせっかくだからシェアします。
(公開にあたりサンプル提供者の許可は得ています)

このサンプル、腸管出血性大腸菌O111は、ゲノムの中に20kb~30kbのリピートが多く、ショートリードではアセンブルがとても難しい。
PacBioでも、一昔前の酵素では、同じように複雑なゲノムであるO157:H7ゲノムは200カバレッジで読んでもContig数は9本でした。
(Koren S., et. al. (2013) Reducing assembly complexity of microbial genomes with single molecule sequencing. Genome Biology, 14:R101 Table 3)


そんなところに、この度、最長Movie時間が4時間から6時間にバージョンアップ!
6時間シークエンスということは、超長いライブラリを作成すれば、長いサブリードが得られ、結果アセンブル結果も改善できるはず。

ということで、

  • 40kbライブラリを作製
  • サイズセレクションをよりシビアに
  • 4時間または6時間でシークエンス

を試しました。

40kbライブラリを作製するには、それなりに長くゲノムを切ることが必要。
今までのG-tubeではなく、Megaruptorという機器を使って切りました。
Megaruptorについてはこちら

この機械で何回かテストカットして、Pippin Pulseに流して確認。
本番カットでゲノムを40kb Shearingしたら、PacBio SMRT bellライブラリ作製へ。

ライブラリができたらおなじみBlue Pippinを使ったサイズセレクション
普通は7kbカットオフとか10kbカットオフとかを行なっていますが、ここでは17kbカットオフをした。
17kb未満のサイズのライブラリを捨てて、それ以上の長いライブラリだけを回収するというわけ。

さて、そのようにしてできたライブラリを、4時間と6時間でシークエンスしたら・・・

リード数は4時間より6時間の方が多いですが、これは偶然でしょう。
平均リード長は、4時間が9kb、6時間が10kb
平均サブリード長は、4時間が8kb、6時間が8.7kb
すごく長いというわけではないけれど、20kb、30kb超えのサブリードも結構ありましたので、これでHGAP3アセンブルを試みた。

Contig数はどちらも4本
最長Contigはどちらも5.32Mb
6時間Contigの配列でDot Plotを作ってみると、確かに、20kbから30kbの長さのリピートが多く含まれていた。
おおーっ!すごい!

6時間で作ったContigに、再度サブリードをマップして作られた、カバレッジグラフを見てみると、染色体5.32MbのContigは、60カバレッジ~140カバレッジであることがわかりました。
カバレッジが高い場所は、ORIであるかも知れない。
ほかのContigは、プラズミドかな? これはその道の専門家に調査をお願いしています。


さて、結果としては、4時間でも6時間でも、このゲノムの染色体はつながりました。
ちゃんと精査する余地はまだ残っているとしても。


せっかくなのでもっとすごいリード、サブリードの例もお見せします。
これは別の大腸菌です。

リード数も6万本、7万本と、さっきの株より多いけど、リード長はもっとすごい。

平均リード長は、4時間が15.6kb、6時間が18.2kb
平均サブリード長も、4時間が13.2kb、6時間が14.4kb

もちろんこのデータでも、染色体ゲノムのアセンブル成功
20kbのリピートも何のその! です。


もちろん、このようにサイズセレクションをシビアにすると、捨てられるDNA量も多いですから、最初に用意すべきDNA量は大変多い(10マイクロ~30マイクログラム)です。
これがネックでしょうね。少量DNAからもこのような長いライブラリを作れたら良いのですが。



2015年10月1日木曜日

PacBio 新型シークエンサー Sequel System

皆さん、驚かれるかも知れませんが、PacBioの新型シークエンサーが発表されました。

私も全く知らなかった。
本当にサプライズ。
PacBio本社でも、知っているひとは限られていたそうです。

ついこの間まで、PacBioの誰もが「PacBioはあの大きな装置、RSIIを、これからも売っていく。小型シークエンサーは出ない」って明言していましたから。
 私もそれを信じて、あちこちで「新型装置は出ない」って言ってきたので、結果として嘘を言っていたことになり、申し訳ないです。

とは言っても、MiSeqくらいの大きさ・・・というわけではないようですね。まだでかい。
横に立っている女性、背が高いです。
装置の大きさは幅x奥行きx高さが、36.5 in x 34 in x 66 in(168 cmくらい)
重さは381kg
今までのRSに比べると確かに小型です。軽乗用車サイズから冷蔵庫サイズに、なった感じ。
デザインは・・・ ちょっと・・・ まあ、いろいろあると思いますがあえて言いません。

プレスリリースはこちら

では今までのRS IIとどう変わったのか?
SMRT Cellが大きくなりました。大きさにして約4倍、ZMWの数は約100万
ここから出力されるリードの本数は、今までと比べておよそ6~7倍

リードの長さやMovie時間はRSIIと変わらない予定です。
1セルあたりの出力塩基数は~5Gb(うまくいけば10Gbも?)
最大16セルまで1ランで使用可能

SMRT Cellが大きくなったということで、今までは8セルが1本のStripにまとまっていましたが、Sequel Systemは4セルで1本です。
これを最大4本、装置にセットすることができます。(合計最大16セル)

Sequel Systemでできることは、
デノボアセンブリ、Iso-Seq、ロングアンプリコン、Methylation解析、というふうにRSIIと同じです。
サンプル調製も、一部はRSIIと同じキットを使い、一部は特別のものを使う、というふうに分かれています。
窒素ガスはRSII同様、必要です。

この機械の、前面の黒いところは、スライドして下に降りるようになっています。
すると、中からロボットと試薬セットを置く台が現れます。
ここでユーザが、SMRT Cellをセットしたり、キットやチップを置いたりします。
スライドを閉めてから、上段右のタッチパネルで操作します。
Real Timeでシークエンスが始まり、データはこの装置の下のほうにあるサーバで、ベースコールされます。

ベースコールされたデータは、ユーザのサーバに転送されるか、USB3.0でユーザが抽出します。
データ解析はRSIIと同様、SMRT Analysis 3.0 を使います。
あ、SMRT Analysisは次に3.0になります。ちなみに3.0はRSIIのデータも解析できますのでご安心を。

Sequel Systemを使えば、うまくいけば、30xのヒトゲノム・90Gbを、1回のランで得ることも可能。
それも平均10kbの超ロングリードで!!



今年のASHG(アメリカ人類遺伝学会)の大きな目玉になることは間違いない!

そもそも、どうしてこんな製品が突然出てきたのでしょうか?

ご存知の方もいると思いますが、PacBioはRocheと共同で、Roche向けの診断用NGS装置を開発するという契約がありました。以前ここにも書きました。
この装置も、Roche次世代シークエンサーの開発の過程で作られたものだそうです。
極秘裏に開発されたのも仕方が無い。

こちらSequel Systemは、Research Onlyなので、Roche向け診断用NGSとは、別物です。
診断向けNGSについては、Rocheさんにお問い合わせ下さいね。


肝心のデータですが、実は、まだオープンにできるものはありません。
現在、本社でサンプル調製の最適化と共に、良いデータ出しをしているところだと思います。
乞うご期待!

価格は来週決まりますので、お問い合わせはトミーデジタルまでお気軽に!


しかし、当然ですが、気になるのは今後RSIIの運命はどうなるのか? ということですよね。
先ほどのプレスリリースによると、RSIIの試薬の開発・サポートは続くとのことです。
これは信じる。

それに、RSIIは販売してから歴史があるので、トラブルシュートの経験がある。
新しいSequel Systemよりは安定してデータを出してくれるでしょう。 
しばらくは共存していくと思います。 

来週アメリカに行くので、いろいろ突っ込んで聞いてきます。



あーあ、それにしても、あちこちで「新型機械は出ない!」って言ってきたなあ。 やばい。
サプライズとしては良いかも知れないけれど。
出るとわかっていたらもっと嬉しかったかも知れない。そう思う社員は、PacBio本社の中にも多いと思う。
まあ、この業界では良くある話ですけどねえ。

良いニュースとして、前向きに考えることにしました!