2016年8月29日月曜日

Sequel Update ~ 2016 8月のプレスリリースより

今から約3年前、2013年9月の、「Roche社から7500万ドルの出資を受けてRoche社向けの新しいシークエンサー&アッセイシステムを開発する」というニュースは、驚きと共に色んな憶測を呼びました。
その2年後、2015年10月に、Roche社向けに開発していたはずのシークエンサーが、突然公に姿を現し、またまた大きな反響を呼びました。
もちろんこれまで大きな出資を受けて開発された経緯もあり、ロッシュ社が大口のユーザになることは予想できたでしょう。

新しい機械が登場すると、いろんな予想や憶測、将来の展望や業界のシェアなど、話題が豊富になりますね。
Sequelもその通りで、これによって何が可能になるか、が、いろんなところで議論されました。


そして、今年に入り、Sequelの試薬、プロトコル、ソフトウェアのアップデートが頻繁に、まるでRSの導入時のように頻繁にありました。

ご存知のかたもいるかもしれませんが、RSは日本に入ってきたとき、C1というケミストリーからC2に変わる時期でした。
なので、それこそ毎週のようにソフトウェアのアップデートがあったりしたものです。
ユーザのかたにはご迷惑かけましたが、最先端の装置はアップデートでどんどん良くなっていく、ということでご理解いただけたかと。

実際、C2になって、平均リード長が2,000 bpへと向上!しましたし、装置もだんだん安定してきましたしね。
C2から始まり、XL-C2、XL-XL、P4-C2、P5-C3、P6-C4 と、酵素&ケミストリーがバージョンアップし、ソフトウェアもSMRT Analysis 1.xから2.3まで更新され、光学系のバージョンアップでリード数が2倍になり(RS -> RSII)、マグビーズステーションの導入で長いライブラリも効率良く読まれるようになり、ステージスタートで長いSubreadがより多く得られるようになりました。
プロトコルもたくさんつくられ、デノボシークエンス以外にも、Iso-Seqやターゲットリシーク、HLAアンプリコンシークエンスなどにも対応できるようになりました。

さ、て、

いまのSequelはどうでしょう?

Sequelについては、8月5日に、GenomeWebにて、アップデートが報じられています。
こちらは公式な発表なので、ブログに書いても良いでしょう。


(前情報として、2012年の夏から、PacBio社はベルギーのImecと共同研究を始めています。ナノフォトニクスCMOS技術についての共同開発らしいです)

Sequel用SMRT Cellの生産は、開発されたImecから、現在、大量生産できる企業に移している最中("in the midst of transitioning to a high-volume supplier")だそうです。
Cellのパフォーマンスは、量産体制が確立され次第、より向上するだろう、とのこと。

Jonas Korlach CSO は、記事の中で、アップグレードを重ねた最新のデータでは、平均5Gb/Cell (3~8 Gbのレンジ)、平均リード長は8~12kbが出ている、と言っています。
(注! インサートの長さについては述べられていません)
しかし Piper Jaffray 社のリサーチによると、ユーザからは平均2kb~6kbのリードしか出ていないそうです。
これについて、Hunkapiller CEOは、パフォーマンスが悪い原因は、Cellの供給元がまだプロトタイプサプライヤーで、量産体制でないためである、と説明しています。
パフォーマンスは今後、大幅に改善 "substantially improved" されるとのことです。


つまり、現在パフォーマンスがイマイチだという声があるが、これはまもなくCellの大量生産体制が安定すれば、大幅に改善されるということ。

今でも Korlach CSOの言うとおり、とても良いデータが出ることもあるでしょうが、安定してどのセルでも良いデータが出ることが大事ですよね。

これまでPacBioは、「次はこうなる!」って言ったことは、まあまあ実現できているので、今回もCEOのMike Hunkapillerが公式に説明していますから、私は前向きに考えます。
"will be substantially improved"

2016年8月22日月曜日

ヒトゲノムとPacBioロングリード 国内シンポジウムのお知らせ

前回のブログにも、Precision Medicineとヒトゲノムシークエンスについて書きましたが、アメリカ人類遺伝学会に行かないかたでも、東京&沖縄で、来月シンポジウムがあります。
今日はそのお知らせです。

主催はPacBio RSII のスーパーヘビーユーザーさんでもある、一般社団法人 沖縄綜合科学研究所。
9月7日(水)は那覇市、パシフィックホテル沖縄にて
9月9日(金)は東京浜松町の世界貿易センタービルにて

どちらもこちらのウェブサイトから詳細が確認でき、参加登録もできます。

日本語の発表と英語の発表が半々くらいで予定され、どれもPacBioを使った最先端の研究の発表になると思います。
台湾からのDr. Meiyeh Luは、アジアユーザーミーティングでも発表されました。エネルギッシュな女性でとにかく話すのが好きな感じでした。そのときは感染症バクテリアなどのゲノムシークエンスがテーマでしたが、今度はどうでしょう。

PacBioからはDr. Meredith H. Ashby 彼女もまた、話すのが好きな女性です。ま、女性はたいてい皆そうですかね。
Meredithとは何度かPacBioの本社で会って話したことがありますが、大学時代に日本語を取っていたそうです。でも日本に来るのは今回が初めてだそうで、楽しみにしていました。
なので今回の発表も期待できますよ。

アメリカからのゲストスピーカーは、Dr. Robert P. Sebra 彼は何度か日本にも来ていますし、私たちが主催した「PacBio現場の会1&2」でも発表してくれましたので、覚えているかたもいるのでは?
恐らく世界で一番、PacBioの装置を動かしているし経験もあるグループでしょう。
所長さんは元PacBioのCSO(最高科学責任者)で、Robertさんもまた元PacBio社員、他のラボのPIにも元PacBioがいるそうですから。
こちらの発表も期待できます。


どちらも午後1時半から夕方5時くらいまでの半日セミナーで、参加も無料だそうです。
PacBioに関する情報収集にはとても良い場だと思います。
シンポジウムやセミナーを企画して、会場手配して、演者のスケジュールを確保して、段取り決めて、って、いろいろ結構大変なんですよね。
だからこういう機会は、とっても貴重ですよ。

できるだけ事前参加登録をお願いしているようです。

と、ここまで言っておきながら、残念ながら、私は別の予定があって、参加できないんですよ。
行きたかったですが・・・。

2016年8月18日木曜日

Precision Medicine (プレシジョンメディシン) とロングリード

皆さん、Precision Medicineという言葉、聞いたことあると思います。
これが何を指すのかというと、「現在のゲノム解析技術と知をフルに活用して、個人に合ったオーダーメイド医療、予防医学も含めて、実現しよう!」というものではないでしょうか?
私の理解はそんなところです。皆さんそれぞれ少しずつ違った解釈をされているかもしれませんね。

しかーし、ここで英語の問題を1問。
「PrecisionとAccuracyの意味の違いを述べよ(PreciseとAccurateの違いでも良い)」

さあ、わかりますか?
普通に辞書引くと、どちらも正確性あるいは精度とか書いてあるかもしれません。でも、厳密には違いますよ。

答え:
Precisionとは精度。何回も測定してどれも近い数値が出た場合、精度が高いといい、再現性が高い、とも言う。
Accuracyとは正確度。測定結果が真の値に近い場合、正確度が高いといい、確度が高いとも言う。
なので、いくらPrecisionが良くても(同じゲノムを何回解析してほぼ同じSNVが測定されても)Accurateで無い場合(真の変異では無い)もある
(ググれば例が出てきますが、私がわかりやすいと思ったのはここ


イルミナ社の超並列高速シークエンサーによって出される膨大なデータは、ゲノム解析を革命的に進歩させ、ある種、Precision Medicineをリードさせたと思います。
でも、Preciseではあるかもしれないけれど、真の変異をコールできていないかもしれない、というところがネックでした。

スタンフォード大のDr. Deweyらが、JAMAに2014年に発表した論文、「Clinical Interpretation and Implications of Whole-Genome Sequencin, JAMA. 2014;311(10):1035-1045」によると、56の重要疾患遺伝子について、ショートリードで30X読んでも、10本未満のリードしかマップされなかった(読まれなかった)遺伝子は結構多かったらしいです(下図)。
JAMA. 2014;311(10):1035-1045

また、想像つくかもしれませんが、ショートリードだけに頼るゲノムリシークエンスでは、

  1. リードより長いリピート配列は検出できない(3塩基繰り返しリピートなどは検出不可)
  2. 多型性が高い配列(HLAなど)で数キロに及ぶハプロタイプを求めるのは困難
  3. 大きな(1000bp以上の)構造変異を検出するのは困難

です。

そこで、ロングリードで、低カバレッジで、正確に変異を検出することが大事になってくるわけですね。

先の論文の著者でもある、Dr. Euan Ashleyは、先日Nature Reviews Geneticsにレビューを発表しました。
リンク先はこちらです
パーソナルゲノム、クリニカルゲノムシークエンス、などの分野に携わるひと、これからやろうと思っているひとは、このレビューを読むことをお勧めします!

ちなみにAshley博士は、Personalis社の創始者でもあるのです。Precision Medicine のまさにオピニオンリーダーですね。

またこのレビューの内容の一部は、YouTubeでも公開されているので興味のあるかたはこちらもどうぞ

最後に、Ashley博士は、今年のASHGでも、PacBioのワークショップで講演します!
行くひとは是非チェック!!



2016年8月16日火曜日

ハイブリッドアセンブリ 悩みどころとそのヒント

リオオリンピック、日本選手の活躍が目立っていますね。
ところで皆さんはどの競技が好きですか? 水泳?マラソン?陸上?

私はやっぱり陸上ですね。
ボルトの100mもすごかったですが、見入ってしまうのは普段あまり目にしない、ハンマー投げとか、円盤投げとか、3000m障害とかですよ。
投げ系は単純に飛距離を競うところがわかりやすいし、投げた後の雄たけびで、こっちも力が入る。
障害はもはや、何でもありでしょう。飛んだり跳ねたり、水辺に入ったり、誰がこんなルール作ったのか。
最初はみんな一緒にスタートするのに、途中で離されたり、転んだり、抜き返したり、ドラマがありますね。

さて、ドラマがあるといえば「ハイブリッドアセンブリ」
使うツールとデータ量のサジ加減で結果がずいぶん違ってくる=ドラマがある


ハイブリッドアセンブリとは、異なる技術のシークエンサーデータを組み合わせてアセンブルすることです。
7年前くらいは、ハイブリッドといえば、数十bpのイルミナリードと、数百bpの454リードを合わせてアセンブルする、ということを良く聞きました、が、
PacBioの登場で、ハイブリッドアセンブリは大きく2つの意味に分かれました
  1. PacBioロングリードを、イルミナショートリードでエラー補正してからアセンブリする(2012年ごろ登場したPacBioToCA, ECToolsでは主にこの意味)
  2. イルミナショートリードで作ったContigを、PacBioロングリードでScaffoldする(2013年ごろのPBJellyの登場からはこの意味も加わる)
厳密には、2はアセンブリというよりScaffoldingですが、これもハイブリッドアセンブリと呼ばれることが多いです。
ちなみに研究者のひとと話をするとき、どちらの意味でハイブリッドと呼んでいるのか、最初に確認するようにします。でないと、話がすれ違いになってしまう!

では、最近多い、2の意味でハイブリッドアセンブルするとして、どのデータをどれくらい用意して、どのツールでアセンブルしたら良いのでしょうね?

で、ちょうど良い論文があります!




この論文は、PacBioリードのアセンブリ戦略をこれから検討するかたに、いくつかヒントを与えてくれます。
彼らはショウジョウバエのゲノムをサンプルにして、PacBioとイルミナのシークエンスをおのおのどの程度(ゲノムカバレッジ)読んで、どのツールで解析すれば良い結果(ContiguityやCompleteness)を得られるか調べています。

ハイブリッドアセンブリの方は、いろいろ試した結果、DBG2OLCを採用。
Platanusを使って67.4xのイルミナデータ(DPGPプロジェクトデータを拝借)をアセンブリし、そのContigとPacBioロングリード(様々なカバレッジ量)をハイブリッドアセンブリするパイプライン。

比較としてPacBioのみのアセンブリは、PBcRを採用(注:いまはCanuというツールになっています)

ま、詳しくは論文を参照して頂くとして、ネタばれします。(先入観持たずに論文読みたいひとはここから先は読まないで)

---------------------------------------------------------------------------

M&Mの最初に、ショウジョウバエのゲノムを抽出して、サイズセレクションして・・・って書いてあるけど、シークエンスしたデータはこのアセンブル解析には使っていない、ってはっきり書いてある! え?
全ての解析データはpublicly availableのものだって!?
ま、それはみんなが試せるから良いとして、ここはスルー

NG50のグラフ(論文中Fig 5)を見ると、PacBioリード40x、53xまでは、ハイブリッドアセンブリの結果の方がNG50が長い(下のほうの3本はハイブリッド、真ん中の青はPacオンリー、一番上の赤線は両方のマージ)
でもその上、62x、77x、99x、121xのPacBioリードでアセンブリすると、NG50は一気に長くなる!

Chakraborty et al. Fig 5

だからPacデータを使うなら、Pacオンリーデータでアセンブリしたほうが良い!

と、言ってもやっぱりハイブリッドは、需要があるわけです。
理由はコストとサンプル量の制限です。

ほぼ無制限に予算があって、ほぼ無制限にDNAが取れれば、Pacだけでアセンブリしたほうが良いに決まってますが、普通そうはいかない。
この論文でも言っていますが、PacBioを30x程度と、イルミナを70x程度用意できれば、そこそこリーズナブルな結果は得られるでしょう。
この論文の例では、Pacデータ30xと、イルミナデータ70xのハイブリッドの結果のNG50は、Pacオンリーの50xアセンブリのときより長かった、そうです。
もちろんゲノムの複雑さによっては、Pacデータは30xでは足りない、なんてこともあるでしょうが、最初のステップとして、30xはお勧めできます(10xは少ないだろうなあ)。

最後に、必要DNAですが、これは結構盲点かもしれませんね。
マイクログラムオーダーのゲノムDNAを用意して、ようやく数個のSMRT Cellを流せるのですから。必要カバレッジのデータ量を得るために、どれくらいのゲノムDNAを抽出する必要があるのか、これを逆算したら結構な量になるかもしれません。
抽出できるDNA量から、カバレッジの限界を計算して、ハイブリッドを選択するケースもあると思います。