2012年4月4日水曜日

Pacの一次解析 その1

今日はPacの一次解析について書きます。
NGSではおなじみですが、ご存じない方のためにちょっと説明すると、一次解析、二次解析、三次解析というのあって、それぞれ、
  1. 一次解析: シーケンサーから出てきた生データから、塩基配列を求める(ベースコールする)
  2. 二次解析: 塩基配列になったリードデータを、アセンブルまたはリファレンスにマッピングする
  3. 三次解析: マッピングされたデータをもとに、Contigをつなげたり、配列から何か意味のある現象(例えば発現量や変異など)を得る
という意味です。

一次解析は、最初の基本的なところなので、データの精度や結果に大きく影響しますね。
以下は全て、シーケンサーの横にあるBlade Center、というベースコールサーバーで行われます。


PacBioのシーケンサー生データは、Movieです。
Movieはとてつもなく大きなデータで、1秒間に3Gbも出てきます。
これはメモリ上に展開されるだけで、すぐに圧縮されてトレースデータ、という形で保存されます。
この、Movieからトレースデータへ、「Movie-to-Trace」 という部分が、Real Timeで行われているのです!
SMRT Cell のSingle Molecule "Real-Time" ですね。

Movieから変換されたトレースデータは、それでも1Cellあたり、50~150Gbもあります。 (Movieの時間によってサイズが異なります)。
トレースデータは、各ZMWから放出された、計測したPhotonの量(光量子束、photon flux)を数値化したものです。
各カメラから計測されたPhotonの推定量と、蛍光ごとによるPhotonの推定量とを使って、何やらノイズを取り除くノーマライズをしています・・・。
これ以上説明せよと言われてもできません。 ごめんなさい!

まあ、ざっくり言うと、動画から蛍光ごとに区別した波形データを作っているんですよ!


で、このトレースデータは、まだ塩基ごとの波形がばらばらなので、もうちょっと見やすく、さらにノーマライズしたのがパルスデータです。

トレースからパルスへ、「Trace-to-Pulse」変換が行われます。
この変換の最終目的は、ポリメラーゼがDNAを読んだ時の、パルスの正確な検出と、他との区別をすることにあります。

トレースデータはまだ、塩基ごとの区別があいまいなんです。 それを、閾値を設けてノイズをできるだけ取り除き、ほかの塩基としっかりと区別できるように変換したのがパルスデータなんです。
パルスデータには、重要なKinetics情報が含まれます。例えば、
  1. パルスの高さ Intensity, or Pulse Height
  2. パルスの幅 Duration, or Pulse Width  (PW)
  3. パルス間の時間 Spacing, or Interpulse distance  (IPD)
  4. 塩基の種類 Content, or Base identity
などです。

次にようやく、パルスデータからベースデータへの変換、「Pulse-to-Base」が行われます。


0 件のコメント:

コメントを投稿