パックマンの挑戦　－　PacBioシークエンサー: 10X Genomics のデータだけに頼ってはいけない理由

10X Genomics （10XG）という会社をご存知ですか？
Synthetic Long Read、またの名をLinked Read と呼ばれるデータを出力し、Scaffoldを作ります。
Synthetic Long Readというのは訳すと、合成ロングリード？擬似的ロングリード？でしょうか。
でも、これは本当の意味でロングリードじゃない！　という意見があったのか、最近は Linked Read、リンクしたリード？、という呼び方がされるようです。

http://www.10xgenomics.com/products/より

バンクーバーのASHGでも、ランチョンやその他のワークショップでも存在感を出していた10XGですが、この会社の対象マーケットは、大きく、1)デノボアセンブリ、2)シングルセル発現解析、の2つがメインだと言えます。
シングルセル発現解析のほうは既存の技術に比べて何十倍ものハイスループット解析ができる、といった優位性があると思います。
ですが、もうひとつのデノボアセンブリは、どうかなあ・・・
10XGに頼って解析を進めていると、大きな情報を見落としていることに気づかないことがあるでしょう。今日はそういう話。

ここから先は、PacBioのJasonさん（Falconなどの開発者）が解析してくれた結果。
彼はバイアスをかけない解析をしますので、私は、とても客観的なデータだと思います。

まず、NA19240サンプルを、PacBioでアセンブルした結果と、10XG v.1.3 でアセンブルした結果があります。
Contiguityを比較するのは大人気ない、というかそもそもContigとScaffoldを比較するのはあまり意味が無い。
そこで、アセンブルした後の結果の、構造変異を検出した場所（Segmental Duplication以外の場所で）を見てみます。

10xGアセンブリ、PacBioアセンブリ共に、数千～1万強の、挿入、欠損部位を検出した
10xGアセンブリの方が多くの欠損変異を検出し、5,573個は、PacBioアセンブリでは検出していなかった
反対に、2,693個の欠損変異は、PacBioアセンブリでは検出され、10xGアセンブリでは検出されなかった

【欠損：10XGで検出されたがPacBioで検出されなかった5,573のうちの１例】

これは、10XGのアセンブリでは176bpの欠損を示していた箇所。
リファレンスには確かに176bpあり、PacBioのアセンブリでも、アセンブリ前の補正後リード（p-reads）でも、確かに176bpがあった例。
この箇所は、GCの連続配列で、10xGが使用しているショートリードでは読めない。
なので間違ってコールされてしまった例。

ほかランダムに抽出した９例

最初の１例を合わせた10例のうち、8例は擬陽性だった。

【欠損：PacBioアセンブリでは検出されたが、10xGでは検出されなかった2,693例のうちの1例】

この配列も、GCが多い場所で、10xGでは読めていない。しかし、この場所には、リファレンスには無い58塩基の欠損領域が、PacBioアセンブリから検出できている。
しかもそれは、ヘテロ欠損。
研究者なら、このようなヘテロな場所の変異に、より興味が湧くのでは深いのでは？

ほかにランダムに抽出した9例

先の1例を除き、全てで10xGのアセンブリでは、読めていない箇所に、実際は欠損変異が存在した。

ということで結論、
読めない配列が原因でコールされた変異は擬陽性の可能性が高い
読めない場所から変異をコールするのは不可能
10xGのデータだけに頼って解析していては、重要な変異を取りこぼすことになる

今回は欠損変異だけに注目しました。（スライドはJasonさん作）

どんな技術もそうですが、それだけに頼って解析していては、見落とすものは必ずあります。　なのでバリデーションは大事。
特に、比較的新しい技術に関しては、一見素晴らしいように見えても、欠点もちゃんと意識して使わないと、レビューワーから突っ込みを受けることになりますね。

10xGユーザの方は、上記のような擬陽性の可能性もあることを考えて、一度、PacBioで読んでバリデートしましょう！！

パックマンの挑戦　－　PacBioシークエンサー

2016年11月10日木曜日

10X Genomics のデータだけに頼ってはいけない理由

0 件のコメント:

コメントを投稿