2017年2月10日金曜日

Oxford Nanopore Technologies (ONT) と PacBio のデータ比較論文

昨日は東京も2月の雪!
20代の前半をカナダの極寒で過ごしたので寒さには強いと思っていたんですが、やっぱり年取ったせいでしょうかねえ。寒いの嫌いです。

さてさて、
先日面白い論文(まだレビュー前)を見つけました。


トランスクリプトーム解析(ゲノムアセンブリではない)で、PacBioとONTのデータを比較した論文です。
オーサーのひとり Dr. Kin Fai Auは ISO-SEQの解析に詳しく、数年前からPacBioを使っています。ロングリードがアイソフォーム解析に有効だということはとても理解しています。

中立な立場で書かれた評価論文なので、どちらにも偏りの無い記述が目立ちます。

ロングリードの欠点は、精度が低い、ということだと彼らはいいます。
確かに、転写産物の1分子を読むには、数十回もカバレッジを重ねられないのである意味当たっています。

このブログを読んでいれば分かるかと思いますが、PacBioには、CCSという同じDNA分子を何度も読むことで精度を上げる方法があります。
1本の転写産物を、何度も繰り返し読んで精度を上げるのです。
また近年では、TofuというIso-Seqの解析アルゴリズムの中で、完全長cDNAを読んだ配列同士でクラスタリングを行い、1本の転写産物をCCSで読む以上にコンセンサス配列の精度を上げる方法も有ります。
ですが、この論文では、わかりやすい CCS で比較をしています。

一方の ONT は、同じDNA分子をポアに2回通す2Dという方法があり、精度は1回しか通さない 1D よりも高いです。1D は、PacBioでいう subread に対応します。
まずはこれがその比較

エラー率に注目!
  • PacBio の CCS : 1.72 %
  • 対するONT の 2D : 13.40 %
  • PacBio の subread : 14.20 %
  • 対するONT の 1D : 20.19 %
ONTの精度はもう少し高いと聞いていましたのでびっくりしました。
試薬バージョンによるのでしょうかね。
しかし、2Dが使われなくなるかも(PacBioから特許侵害訴訟を起こされているため)しれませんから、そうすると ONT としては 1D + ショートリード補正、というのが今後の使い方になるのでしょうか?

さて、論文の中に下のような文章があります。

"Results: PacBio shows overall better data quality, while ONT provides a higher yield. As with data quality, PacBio performs marginally better than ONT in most aspects for both long reads only and Hybrid-Seq strategies in transcriptome analysis."

なるほど。
いいんじゃないでしょうか。まだまだ勝ってる(笑)。

PacBioのエラー補正にショートリードを使わなくても良い、と個人的には思いますが、一方のONTをそうやって補正しているので、比較のために同じ条件でエラー補正したんでしょうかね。
PacBioとONTのエラーのパターンなんかも述べられていて、面白いです。
もちろん、転写産物解析にどちらのデータが使えるか、というのもちゃんと比較しています。

論文のリンク、忘れていました。
ここです。 





0 件のコメント:

コメントを投稿