2012年1月20日金曜日

PacBio の精度 (2) 出力リード数

前回、リードの精度が85%くらい、と書きましたが、もう少し正確には、「ポリメラーゼによって合成される1本のリードに含まれる塩基が、平均して85%は正しく読まれる」 ということです。

精度と間違われえやすいのが、出力されるリード数です。
1 SMRT Cellあたり、何本のリードが出力されるか、ですが、2kbくらいの長さのライブラリの場合、理想的には35,000本以上です。

1つのSMRT Cellには、15万個のZMW(zero mode waveguides)があり、その15万個の穴の中でポリメラーゼによるDNA合成が行われます。


もちろん15万個のすべてのZMWで合成が行われるわけではなく、次の3つの場合に分かれます。

0.  空(から)のZMW:合成は行われない
1.  1つのポリメラーゼ+テンプレートの入ったZMW:正しく合成が行われる
2.  それ以外:こちらはノイズになるので検出対象にならない

確率的には1/3の割合(厳密にはポアソン分布)で、正しく合成が行われる状態のZMWができるわけです。

35,000本のリード数は23.3% (35,000/150,000)
実際には30% を超えれば非常に良いとし、20-30%はAcceptableであるとしています。
10%台はちょっと低いです。

ちなみにこの出力リードの数は、ライブラリーの大きさに依存します。
ライブラリーが例えば6kbや10kbなどと長い場合、できるだけ長く読むにはムービー時間を長く設定しなくてはなりません。
現在は、45分を超えるムービーを撮影する場合、SMRT Cellに含まれる15万のZMWの、半分の75,000 ZMWしか読まれません。
したがって、75,000の30%で正しく合成が行われるとすると22,000本、20%では15,000本が読まれる計算になります。

このあたりの計算は、実験計画を組む際に必要でしょう。 

長く読もうとすると、それだけ出力されるリード数を犠牲にしなければいけないのです。

0 件のコメント:

コメントを投稿