パックマンの挑戦　－　PacBioシークエンサー: CCSは精度では全てのNGSに勝る。コストではサンガーに勝る。カナダの生物種同定プロジェクトの例

これは私がずーーーっと前にこのブログで説明したCCS（Circular Consensus Sequence）についての絵です。
一時期、CCSのことをROI（Reads Of Insert）と呼んでいたこともありましたが、わかりにくいということでCCSの呼び名が復活しました。

今のSequelでは、１セルあたり100万のZMWから30万本～60万本のリードが出てきます。
平均10kbのリード長とすると（実際は平均12kbのときもあればそれ以上のときもありますが、少な目に見積もって10kbとした）、15万本～30万本のリードは10kb以上読めていることになる。
例えば1kbのライブラリを作りランするとしたら、10回以上同じインサートDNAを繰り返し読んで作られたCCSが、15万～30万本作られることになりますね。
10回以上繰り返し同じDNAを読めば、かなり精度が高いCCSが作られます。
実際の解析ではもちろんパス数でフィルタリングするよりも、QVでフィルタリングした方が良いでしょう。

ミトコンドリア配列中にあるシトクロムCオキシダーゼI（COI）遺伝子の配列は、さまざまな生物で配列に違いがある。
GC含量が15%～45％とバリエーションが広く、サンガー法ではホモポリマーなどが原因で読みにくい。
この配列を読むことで生物種多様性を研究しているひとたちがいる。

International Barcode Of Life という国際プロジェクトがある。
Dr. Paul Hebert, Director of the Biodiversity Institute at Guelph, Canadaは、今までサンガー法で行っていたCOI配列のDNAフィンガープリントを、Sequelでバーコードを使って読み、大幅なコストダウンを実現したという。
Hebert博士のプレゼンの様子はこちらから録画が見れます。

Dr. Hebertのプレゼンから

実際にはCOI遺伝子の658塩基の領域を増幅して、アシンメトリーのバーコードを付けて、Sequelで読んだ。
100種類のバーコード配列をアシンメトリーにヘアピンアダプターに付けるので、100x100種類で合計10,000種類の識別が可能になる。

10,000種類の識別が一度に可能ということで、１日に4セルランし、１週間で260,000種類のDNA検体を解析したとのこと。

実験の詳しい内容はここの論文に書かれています。
サンガー法と比べても、コストと手間の面でSequelが圧倒的に優れています
精度もサンガー法と引けをとりません。
もっとも、一度に10,000サンプルとか言われると、DNA検体を集める方が大変かもしれませんが。

Hebert博士らの論文（2018）

なお、ショートリードでは658bpを連続して読むことはできません。
MiSeqを使った250bpメイトペアシークエンスでも届かないでしょう
同じロングリードのオックスフォード・ナノポアはどうか？
残念ながらCCSのように同じライブラリを何度も読むことはできないので、サンガー法のような精度を達成することはできないでしょう。

ということでSequel（もちろんRSIIも）は、PCRアンプリコンをたくさん一度に精度を高く読むことのできる唯一のNGSと言えるでしょう！

パックマンの挑戦　－　PacBioシークエンサー

2018年3月31日土曜日

CCSは精度では全てのNGSに勝る。コストではサンガーに勝る。カナダの生物種同定プロジェクトの例

0 件のコメント:

コメントを投稿