2018年4月23日月曜日

ローディングリコメンデーションという「推奨」

PacBioに限らず、ローディングリコメンデーションという単語があります。
アプライDNA量の推奨値、という方がわかりやすいでしょうか。
シークエンスデータが最も最適に出力されるような、DNAライブラリの濃度と量のことを示しています。

「最適に出力」という意味は「より長いリードをより多く出力」と考えてかまいません。

その前に、、、
P0、P1、P2、というPacBioに特別な単語があります。
これはZMWの中にポリメラーゼとSMRT Bellライブラリのコンプレックスが入ってシークエンスされるわけですが、そのデータを見て、

  • P0:データ無し→つまりZMWにライブラリが入っていない。空っぽ
  • P1:きれいな1分子のDNAデータが出てくる→きちんとZMWにライブラリが入って、かつシークエンスがされていた
  • P2:上記以外→データがノイズばかりの場合。ZMWに複数ライブラリが入った場合。クオリティが低いリードしか読まれていない場合など
を区別しています。
実際解析に使用されるデータは、P1のデータです。
アプライDNA量が極端に少なければ、ZMWに入るライブラリが少ししかないのでP0が増えます。逆に極端に多くライブラリを入れた場合は、オーバーロードと言って、P0は減るかもしれませんがP2が増えることが予想されます。

RSIIや初期のSequelの場合、ZMW全体のうち20%~40%のZMWからP1データが出力されることが望ましい、と言われていました。
ポワソン分布に従うならば33%、それをもっと上げるためにマグビーズなどが使用されて40%、多い時は50%を目指していました。

Sequelの5.1になり、そのリコメンデーションが改訂されました。ここ
  • P1はほとんどのアプリケーションで50%以上を目指すように
    (ただし、あまり多くのP1リードを目指すとリード長が短くなる恐れもある)
  • オーバーロード(ライブラリの入れすぎ)の指標は、P0の値を参考にする。P0は20%くらいが望ましく、10%を切るようならばライブラリ量を減らした方が良い
  • Iso-Seqやアンプリコンの場合、Pre-extension(読む前にシークエンス反応をある程度進める方法)をするので、P1は70%を目指すことが可能で、P2は20%未満を狙う
  • Expressキットを使うゲノムアセンブリ用のロングライブラリの場合、P1は50%台を目指す
  • バクテリアのマルチプレックスは、P1は50~65%を狙う
と、細かいことですがつまり長いライブラリでもZMWの半分からは良いデータが出てくるような濃度でアプライすることを推奨しているのですね。
SequelセルのZMWは100万あるので、50万本のロングリードが1セルから出力されることを想定して、最適なライブラリ濃度を調整することが必要というわけです。

短めのライブラリ、Iso-Seqやアンプリコンの場合は、最高70万本の配列が出力されることが十分あり得るのでデータ単位のコストはかなり低くなると思います。

ここまで書きまして思うところがあるのですが、
P1の数字を狙って濃度調整することは難しい!
というのがユーザの本音だと思います。

なのであくまでもリコメンデーション、推奨、なのです。
「その値を狙ってアプライしたときが一番良い結果を生むと思います。ですが結果はサンプルにも依存するので必ず良い出力を出すという保証はございません」
という意味です。

なので受託に頼んでスループットが予想ほど良く無くても、受託会社さんを責めないでくださいね。

0 件のコメント:

コメントを投稿