2014年7月24日木曜日

いまさらですが、復習 PacBioの特長とは?


梅雨が明けたら猛暑
そんな時は、アイスです!
私がジャイアントコーンの次に好きなアイスは雪見だいふくなんですが、これのレシピが公開されているんです!
ここ
早速作ってみよう! と思ったけれども、もちが無い。 
近所のCoopにも、無い。
イオンまで行くのは面倒だな、と思っていたら余計食べたくなったので、さっきコンビニで買ってきてしまいました。 雪見だいふくを。 いったい俺は何をしているのか。
・・・ ぜんぶ雪のせいだ (若干古い)


さて、突然ですが、PacBioシークエンスの特長といえば何でしょう?

横幅2mとか、重さ1トンあるとか、高純度の窒素ガス使うとか、そのあたりは見た目ですね。

DNA合成をリアルタイムで観察できるとか、増幅無しで一分子で読むとか、C3とかのケミストリーを思いつきますか?

それとも、直径50nmの超小型ウェル・ZMWや、15万のウェルにピンポイントでレーザーを照射する、光学機械系を思い浮かべますか?

解析サイドからいうと、以下の3つが大きいと思います。

  1. どのゲノムもほぼまんべん無く読めること (読めない配列、というのが(多分)無い)
  2. エラーがランダムに入るのでコンセンサスの精度が極めて高いこと
  3. どのシークエンサーよりも長く読めること 

1は、良く言われる、GCバイアスが無い、ということと同意義です。
(GGC)n の連続配列も問題なく読めます。
読み取る直前に増幅しないので、テンプレート通りに読み進むことができます。
(多分)と書いたのは、理論上は読めない配列は無い、と思うけれど、実際リード長を超える長さのリピートがあった場合、それを確かめる方法が無いから。

何を言っているかというとですね、何でも良いのですがリピートが100kb連続していたとします。
PacBioは最高でも30kbくらいですから、100kbのうちのどこか、本当は読めていない配列があったとしてもわからない、確かめようがないからです。

営業的には、「読めない配列は無い!」と言い切りたいのですが、そう言うと、上記のような突っ込みが入るかもしれないので、最初から断っておきました。

2は、これも、理論的にはランダムにエラーが入ると言われています。
しかーし、
ユーザからは、「ランダムではないよ」、という声も実はあったりする。
まだ、ポスターや論文になっていないので詳しくはNGですが、もしそうなら、インパクトあるかもしれませんね。
でも、そのような発表があるまでは、「エラーはランダムです!」 ということに。

ランダムエラーだから、カバレッジを重ねたときのコンセンサス精度は99.999%に達する。
たいていのバクテリアゲノムアセンブリで、これくらいの精度にはなると思います。

3は今さら言うまでも無いですね。
平均リード長 8,500bp
N50リード長 10,000bp超
最長 30,000bpくらい

です。

これだけ長ければ、リボソームリピートやトランスポゾンをまたぐことは普通ですよ。



ここで、メーリングリストのお知らせです。

Plant and Animal ゲノムのメーリングリストがオープンしました。ここから


時代はバクテリアのその先へ!
ということなのでしょうかね。
大型真核生物のゲノムアセンブリはPacBioをもってしても、チャレンジングなフィールドです。
ここに登録すれば、定期的に有益な情報が得られるかも?


0 件のコメント:

コメントを投稿