2014年7月24日木曜日

いまさらですが、復習 PacBioの特長とは?


梅雨が明けたら猛暑
そんな時は、アイスです!
私がジャイアントコーンの次に好きなアイスは雪見だいふくなんですが、これのレシピが公開されているんです!
ここ
早速作ってみよう! と思ったけれども、もちが無い。 
近所のCoopにも、無い。
イオンまで行くのは面倒だな、と思っていたら余計食べたくなったので、さっきコンビニで買ってきてしまいました。 雪見だいふくを。 いったい俺は何をしているのか。
・・・ ぜんぶ雪のせいだ (若干古い)


さて、突然ですが、PacBioシークエンスの特長といえば何でしょう?

横幅2mとか、重さ1トンあるとか、高純度の窒素ガス使うとか、そのあたりは見た目ですね。

DNA合成をリアルタイムで観察できるとか、増幅無しで一分子で読むとか、C3とかのケミストリーを思いつきますか?

それとも、直径50nmの超小型ウェル・ZMWや、15万のウェルにピンポイントでレーザーを照射する、光学機械系を思い浮かべますか?

解析サイドからいうと、以下の3つが大きいと思います。

  1. どのゲノムもほぼまんべん無く読めること (読めない配列、というのが(多分)無い)
  2. エラーがランダムに入るのでコンセンサスの精度が極めて高いこと
  3. どのシークエンサーよりも長く読めること 

1は、良く言われる、GCバイアスが無い、ということと同意義です。
(GGC)n の連続配列も問題なく読めます。
読み取る直前に増幅しないので、テンプレート通りに読み進むことができます。
(多分)と書いたのは、理論上は読めない配列は無い、と思うけれど、実際リード長を超える長さのリピートがあった場合、それを確かめる方法が無いから。

何を言っているかというとですね、何でも良いのですがリピートが100kb連続していたとします。
PacBioは最高でも30kbくらいですから、100kbのうちのどこか、本当は読めていない配列があったとしてもわからない、確かめようがないからです。

営業的には、「読めない配列は無い!」と言い切りたいのですが、そう言うと、上記のような突っ込みが入るかもしれないので、最初から断っておきました。

2は、これも、理論的にはランダムにエラーが入ると言われています。
しかーし、
ユーザからは、「ランダムではないよ」、という声も実はあったりする。
まだ、ポスターや論文になっていないので詳しくはNGですが、もしそうなら、インパクトあるかもしれませんね。
でも、そのような発表があるまでは、「エラーはランダムです!」 ということに。

ランダムエラーだから、カバレッジを重ねたときのコンセンサス精度は99.999%に達する。
たいていのバクテリアゲノムアセンブリで、これくらいの精度にはなると思います。

3は今さら言うまでも無いですね。
平均リード長 8,500bp
N50リード長 10,000bp超
最長 30,000bpくらい

です。

これだけ長ければ、リボソームリピートやトランスポゾンをまたぐことは普通ですよ。



ここで、メーリングリストのお知らせです。

Plant and Animal ゲノムのメーリングリストがオープンしました。ここから


時代はバクテリアのその先へ!
ということなのでしょうかね。
大型真核生物のゲノムアセンブリはPacBioをもってしても、チャレンジングなフィールドです。
ここに登録すれば、定期的に有益な情報が得られるかも?


2014年7月23日水曜日

HiSeq X Ten がんばる

以前、私のブログにも登場した、HiSeq X Ten
最初は何て読むのかなと思っていましたが、ハイセック・テンでいいみたいです。
ヒトゲノムリシークエンスに特化したHiSeqを、10台でセットにしたシステムです。

今、どこに入っているのかなーとウェブで調べてみたら、このサイトにまとまっていました。

  • Broad Institute (Cambridge, MA, USA)
  • deCODE Genetics (Reykjavik, Iceland)
  • Garvan Research Foundation (Sydney, Australia)
  • Human Longevity, Inc. (San Diego, CA)
  • MACROGEN (Seoul, South Korea)
  • New York Genome Center (New York, NY, USA)
  • Novogene (Beijing, Chaina)
  • Sanger Institute (Hinxton, UK)
  • WuXi Pharma Tech (Shanghai, China)
なんともう9システムも!
中国は2箇所で導入していますね。どちらも企業というのが驚きです。
韓国も企業です。

オーストラリアのGarvan研究所は、1週間に350ゲノム、年に18,000ゲノムを読むことができる、と書いています
実際、10台のHiSeqXから出力されるデータは3日間で1.8Tb
1日で30カバレッジのヒトゲノム解析を可能にしたと、イルミナ社のドキュメントには書いてあります。

どんなところが買うのかなーと注目していたのですが、やはり大きな研究所は買っていますね。
Human Longevity, Incという会社は、あのDr. Craig Venterが共同設立者で、ヒトゲノムを年間10万人分読むという計画の下、HiSeq X Tenシステムを2システム、導入するそうです

このシステムの特徴は、ヒトゲノム専用機械だということ。
ヒト以外のいろんな生物のゲノムアセンブリや、ヒトでもExomeやRNA-Seqなどには使用出来無いという制限があるそうです。

さて、次にこのシステムを買う研究所は、中東、カタールのSidra Medical and Research Centerです。
アラブ人のヒトゲノムデータベースをそろえるのでしょうか。
世界各地で今やホールゲノムシークエンスブームですね。

そんな中、「1000ドルゲノムが可能に!」 というキャッチフレーズは、個人的には嫌いです。

先のドキュメントには、「システム償却費、シーケンス消耗品、DNA抽出、サンプル調整、そして典型的なハイスループットゲノムラボにおける人件費(予測)を含めて1000ドルゲノムを可能にしました」
とあるんですが、「償却期間および人件費は機関の会計基準およびリソースによって異なります」
とも書いてある。

恐らく、国内営業的には、日本の会計基準に合わせ、日本の試薬コストや人件費を考慮して、プレゼンをしているのでしょう。
そうすると余計、1000ドルゲノムを達成するには、十数億円の投資を考えると、フルに動かしても4、5年はかかるのでしょうか?

アメリカでの試算がここにあります。
これによると1000ドルゲノムを達成するには4年間で72,000サンプルをフルに読む必要がある。
72Mドル・・・・・
システムが10Mドルとすると、ランニングコストが67Mドル
そこに人件費、光熱費、試薬代、すべてが含まれます。

ここで言う1000ドルゲノムには、データストレージ、解析サーバ類は含まれません。
結構なデータ量になりますよね。


何かこう、最近の「1000ドルゲノム」とは、言葉遊び、数字のトリック、が氾濫している気がするんです。
もっと良い指標は無いものか、と思うしだいです。


2014年7月20日日曜日

コスト比較は気をつけよう

1週間に1度、更新するつもりが、6月に1回書いてからもう7月も後半!
何と! 一日のページビューが100を下回っていたことに気がついたので慌てて書くことに。
言い訳すると、最近Twitterにはまってまして。
そっちで誰かのをリツイートして満足していました。

さて、先週の金曜日、「164委員会」という会員制セミナーで、各シークエンサーメーカーや機器メーカーを集めたNGSセミナーがありました。
残念ながら私は参加せず、別の者がPacBioの紹介を。

聞くところによると、PacBioのコストに関する質問が出たそうな。
「ヒトゲノム50xのデータをPacBioで出すのに、いくらかかるか?」

まあ、この手の質問は良くあるんですが、HiSeqやProtonのコストと比較するのはナンセンス、とまでは言わないけれど気をつけなくてはいけなんです。
これを読んでいるひとは何となくわかると思いますが、目的が違う。

ヒトゲノムを
PacBioで50x読んだら、デノボアセンブリ ができる
HiSeqで50x読んだあとは、リシークエンス 

ヒトゲノム(に限らずギガbp単位のゲノム)をデノボアセンブリしようとするのは、はっきり言って、大型プロジェクトですよ。
ワシントン大学のCHM1ヒトゲノム57xも、いろんな研究所との共同研究。
そして彼らのアセンブリサイズは3.25Gで、今までの2.83Gより長かった。
ということは今まで読めていなかったところが結構あったということ。
リファレンスゲノムを疑って、今まで読めなかったところを読む、そういうチャレンジングな目的で使うのです。
(リファレンスゲノムを信じて、それにマッピングして例えばSNPを見つけようというのであれば、ショートリードを選んでください。)

ワシントン大学がやっている同じことをPacBio無しでやろうとすると、NGS用に何種類もライブラリ作って、BACやFosmidも用意して・・・と、膨大な手間と時間とカネがかかってしまう。
ヒトゲノムプロジェクトをやり直すわけですから。
少なくともそのかなりの予算をPacBioに与えれば、大分時間が節約できるでしょうね。

と、まあ具体的金額に触れずに書いてきましたが、現実的なコストで言うと、3Gbの50xカバレッジで1000万円~2000万円と言ったところでしょう。
1000万も幅があるのかよ!
と突っ込みを入れられそうですが、ライブラリのクオリティが良いか、とか、腕がうまいかどうかとか、いろいろ条件があるので一概にいくら、と保証できる数字は書きません。
これに、試薬やキットに含まれない、周辺機器を使うコスト、人件費、光熱費その他、がかかります。

シークエンスにかかる時間は、3時間Movieを8個のSMRT Cellで24時間+試薬調整、ベースコールや転送にかかる時間も混みこみで+4時間=28時間
これを50回分ランするとして、1400時間
単純に24で割るとおよそ59日
実際は土日や深夜に出てきたくないから、3ヶ月くらい?

このコストと時間を、リシークエンスだけに費やそうというのは、結構贅沢です。
どうしても他のテクノロジーでは読めない部分を読みたい、という強いモチベーションと資金が必要ですね。
とりあえず全ゲノム読んでみよっか? みたいな使い方はできません。


できることが違うのだから、同じ条件で比較しても、見ているのは全体のほんの一部。
イタリアのスーパーカー・フェラーリと、日本のハイブリッドカー・プリウス。
前者の売りはラグジャリーとステイタス、後者の売りは環境と安全性能。
同じ車でも、燃費で比較するひとはいませんよね。
(ちょっと違うかな?)


NGSを比べるとき、「Gbあたりのコスト」って、良く目にしません?
たいていHiSeq2500が圧倒的にコストが安く、書かれているんですよね。
でも今度からは、Oxford Nanoporeも参加しますよ。 
彼らのPromethION は、2000 channelsから、 毎分1Gb出すそうですからね(https://twitter.com/mason_lab/status/479763895238672384)。

Oxford Nanoporeの話はまた今度するとして、コストの比較を書くとき、こんなのはどうだろう?
「1000bp以上のリードに限ったときのGbあたりのコスト」
これなら当面、PacBioひとり勝ち。相手はSangerくらいですから。
Moleculoがあるって? なーるほど。 でもキット・試薬はいくらかかるんでしょう。