私が愛読しているブログに面白い記事がありました。
「PacBioでMicrobeをシークエンスするコスパは?」
(原文:The economics of PacBio sequencing a microbe)
JGI(Joint Genome Institute)ではPacBioとHiSeqを保有しています。
そこでは、バクテリアや少し大きめ真核生物ゲノムをシークエンスしています。
早くからPacBioRSを導入しただけあって、いろんなプロトコル開発などにも協力してきたみたいです。
さて、バクテリアや真核生物ゲノムのドラフトを決めるのに、全部PacBioで読んでしまえば、それは精度の高いものができるはずですが、コストがHiSeqと比べてまだ10倍するそうです。
ですので、ラフでも良いものや、単純なゲノム構造の生物は、2x150bp, 275bpインサートライブラリを、Illumina 1T HiSeq 2500で、バクテリアは48x のマルチプレックス、真菌クラスは8xのマルチプレックスで読んでいると。
もちろん、GCが極端に多かったり少なかったりするゲノムの場合、ショートリードだけではつながらないので、そこでPacBioの登場!
例えばGCが70%を超えて、数キロにわたる長ーいリピート配列を含む放線菌の場合、ライブラリを作ってAMPureビーズによる10kb以上のセレクションを行い、PacBioRSIIで読めば、たいてい2-3個のSMRT Cellでゲノムアセンブリは完了するとのこと。
この辺は我々の認識とほぼ合ってます。
JGIは昨年度、250株ほどを読んだらしいです。今年は500株にのぼるとのこと。
真核小型ゲノムの場合、5個のSMRT Cellでおおよそ40Mbのハプロイドであれば、かなりちゃんと読める模様。
10kbのAMPure精製カットオフをしたシークエンスということですから、妥当な数でしょう。
今期はBluePippinを購入、20kbライブラリプロトコルでもっと複雑なゲノムにも挑戦です。
さて、真核で小型ゲノムでは、4kbのメイトペアライブラリを作製し、ALLPATH-LGでアセンブルする方法もとっているそうですが、バクテリアではそれをしていない。
なぜかと言うと、メイトペアライブラリを作るコストと、PacBio RSIIで1セル読むコストがほぼ同じで、かつPacBioの方がアセンブリ結果が良いから、だそうです。
同じ理由で、今後は真核生物でもPacBioだけで読むことになるらしい。
さて、コストと言えば、新型機種・Sequelシステムは、ランニングコストはRSIIの2~3倍、と先のブログには書いてあります。
日本定価ベースで比較すると、SequelのランニングコストはRSIIの1.6倍~3.6倍です、
これにはサンプル調整からシークエンス消耗品まで全て含んだ、より実感に近いのランニングコストでしょう。
ま、2~3倍というのは間違いではないですね。
Sequelの場合はセルが高価なので、セルが増えれば、コストは上がります。
但し、Sequelのスループットは公表値でRSIIの7倍
ギガベースあたりのコストはSequelの方が4倍~8倍安くなる計算
安くなるとは言っても、スループットが多いというのもまた、微生物やっている研究者には考えもの。
というのも、バクテリアでゲノムサイズが5Mb 程度で、今までRSIIでセル1個で読めていたものを、わざわざSequelで読むかという問題があります。
ここも日本定価で換算すると、RSIIで3個のセルを読む場合と、Sequelで1個のセルを読む場合と、ほぼ同じ(まだ若干Sequelの方が高い)です。
なので、RSIIでセル4個以上でないと読めないくらい複雑なゲノムであれば、Sequelで読んだほうがお得感が感じられるかもしれませんね。
それでもまだオーバースペックであれば、バーコード(マルチプレックス)という方法があります。
先のブログでは、例えばRSIIで1セルで十分読めるようなバクテリアのライブラリの場合、7種類のバーコード付きライブラリをSrequelのセル1つで読めば(7倍のスループットなのだから)、コストを大幅に抑えられる、というような文章があります。
ちょっと誤解があるのですが、バーコードを付けると、リードの出力は減ります。
バーコードは、2本鎖DNA(インサートDNA)の末端とヘアピンアダプターとの間にあります。
ですので、シークエンスが始まってから、アダプターまで届かなかったリードはそもそもバーコード配列が読まれません。それらはポリメラーゼリード、サブリードとしては出力されますが、バーコード配列を基準に分けることができない。
これはライブラリが長くなればなるほど、バーコード配列まで読まれないリードが多くなる、ということを意味します。
今は、デノボアセンブリ用のアダプターバーコードは、10kbライブラリ用で使うことを推奨しています。 しかーし、それでもバーコード認識できないリードが、多くて全体の50%ほどあるかと思います。(平均リード長=10kb なので)
そんなわけで、どうしてもオーバースペックに感じられる場合は、バーコード無しで複数ライブラリを混ぜてシークエンスし、後で一緒にアセンブルする、という少々乱暴なやり方も存在します。
この方法は、サンプル間のゲノム配列が全く異なる場合にのみ有効です。
相同性が高い株同士を一緒にアセンブルすることは、ミスアセンブルを導くだけなのでやめたほうが無難。
JGIではそのようなことが議論されていたようです。
私も今年の春に、海外のユーザで同じように、完全に異なるBACをバーコード付けずにシークエンスして、完全に元通りにアセンブルが再現できた例を聞きましたし、
PacBioのUS本社でも半ば常識のように話されていた記憶があります。
いずれにしても、Sequelは、出力データ量(正確には塩基数)が7倍ということですので、小さいゲノムをアセンブルするときには工夫する必要がありそうです。
データ量が様々なサイズのセルが出てくれれば良いですね。
ついでに記しておくと、先の引用ブログの、装置の値段は正しくありません。
300kドルというのは間違い。そんなに安かったら嬉しいですけど。