一分子で読むことのインパクトや原理のことは注目されますが、研究者にとってはやはりデータの精度がどれくらいのものなのか、が重要な基準でしょう。
前から(私が聞くところでは2年くらい前から)言われていたことで、データの精度は70-80%くらいだ、というのがあります。
これは、額面通りに受け取ってしまうと、つまり他の次世代シーケンサーと比較してしまうと、とても効率の悪いシステムに聞こえてしまいそうです。
しかし、これはPacBioの1本あたりのリードの精度です。
ちなみに85%というのが最近の値です。 8割以上、塩基を正しく読んでいます。
でも、インサート配列が数百塩基の場合、同じインサート配列を何度も読むことによって、この精度を限りなく100%に近づけることができます。 「何度も」というのは5回くらいで、結果99%に近づくそうです(λファージを読んだときの結果です)。
同じインサートを何度も読むことを可能にしているのが、ダンベル型のライブラリーです。
左のアダプターにくっついているのがポリメラーゼですが、これが2本鎖DNAを何度も読むことができることが、明らかでしょう。
センス鎖とアンチセンス鎖が何度も読まれるわけです。
これを、Circular Consensus と呼びます。
一方、できるだけ長く読みたい、そんな場合は15%の読み取り間違いも許しましょう。
PacBioの特徴は、最大6kbのリードを出すことができる超ロングリードにあります。
(この数字は近い将来更新されます)
その場合の読み取りエラーは、別のショートリードシーケンサー、例えばHiSeqなどで補うことができると思います。
ということで、読み取り精度が低い、というのは
- 1分子インサートをたった1回しか読まない場合で、
- インサートが短ければ何回も繰り返し読めるので精度を限りなく100%に近づけることが可能
この絵は、以前のExpression Analysis社のWeb セミナーの絵ですが、真ん中がCircular Consensus、何度も同じ配列を読むパターンです。 アダプターを除いた後の配列を重ねれば、その場所の精度が上がるわけです。
一番上が6kbのインサートを読むケースです。 一本しかありませんが超ロングリードです。
一番下のStrobeは今は無視して下さい。
以前Roche454のユーザから聞いたことがあるのですが、長いリードは長いということに大変価値があるので、読み取りのエラーはショートリードで補う方が良いとのことです。
Pacの価値も超ロングリードということにあるので、同様な使われ方をされるのではないかと、信じています。
0 件のコメント:
コメントを投稿