どうやってパルスからベースコールを出しているのか?
これは、「観測されたパルスがOの時に、そのテンプレート配列がTである確率が、最も高い、Tを、そのテンプレート配列の塩基とする」 ということにしています。
回りくどい言い方ですみません。 数学が得意な方はこちら
あ~あ、そういうことね。 ってわかった方はすごい!
つまり、パルスがこれくらいだったらこれはAである確率が一番高い、とかTである確率が一番高い、とかそういうパターンアルゴリズムがあって、それに当てはめているのです。
そこんとこもっと詳しく! って思った方、しかしながら、トレースファイルからパルスデータ、その後の一連のベースコールアルゴリズムは、公開されていません。
ですので概念としてしかお伝えできません。 あしからず・・・
さて、PacBioのデータの特徴、エラーの特徴にはどんなものがあるのか。
トレース、パルスデータにヒントがあります。
以前、PacのデータはInsertionエラーがある、と書きましたが、それを含め、Pacのエラーはどんなときに起こるのか?
エンジニアに聞けばまた別の答え(カメラやレーザーだとか、窒素濃度だとか)があるのですが、分子生物学の立場からだと、その答えはポリメラーゼにあります。
(レーザーによるエラーはまた別の特徴があり、窒素濃度によるエラーもまた別の特徴があるので、InDelエラーはほぼポリメラーゼによる、と考えて良いでしょう)
DNAポリメラーゼは、人工的に変異を施しています。
合成スピードをカメラの技術に合わせて、ダウンさせています。
CellのZMWの底にBiotinでくっつくようにしています。
さらに試薬のpHに耐えられるようにしています。
また、酸素は有害です。
そして何より、自身が蛍光を放つたびに、光子が出すエネルギーに絶えずさらされています。 これによるダメージも大きいのです。
以上の環境下では、ポリメラーゼ君は時に疲れて休んでしまうこともあるでしょう。
ちょっと休んでまた働くこともあれば、そのまま動かなくなってしまうことも。
されにサボって、合成しないときも。
- サボってDNAを合成しないで、そのまま次に進んでしまうと ・・・・ その塩基ではパルスは検出されないので見かけ上Deletionになります。
- 合成はしても、疲れて休んで動かないと、蛍光を外さないので2個+分読まれてしまうことも ・・・ その塩基では2個分読まれてしまい、見かけ上のInsertion
- さらに2個分の蛍光が、テンプレートと同じときと違うとき(間違いパルス)の2種類あるのでInsertionにも2種類あるのです。
- 合成はしたけど間違ったパルスが検出された ・・・ これはMiscall
もちろん、同じ蛍光が2つ並んだ時が、ポリメラーゼ君のお休みによるものなのか、真にホモポリマーによるものなのか、その見分けは、簡単ではありません。
モデル式を用意して、当てはめて、区別しているのです。
単純に偶数倍のパルスの幅があるからそれで割る、みたいなことよりもずっと賢い計算をしているそうです。
0 件のコメント:
コメントを投稿