パックマンの挑戦　－　PacBioシークエンサー: 論文紹介：SNP検出のバリデーションに使用！

最近、PacBioを使っての論文がたくさん出ています。
一番最近のは、PacBioの超ロングリードに対応したMappingツール、BLASRのアルゴリズム
Mapping single molecule sequencing reads using Basic Local Alignment with Successive Refinement (BLASR): Theory and Application (PMID: 22988817)
このBLASRというMappingツールは、PacBioの二次解析ソフトウェアについてきます。
もちろんフリーなので、PacBioのユーザー以外でも使うことができます。

このBLASRがまだ前のバージョンだった頃、Broad Instituteでは、既存の有名なMappingツール、BWA-SWを使ってPacBioで読んだターゲットリードをゲノムにMappingし、その後GATKでSNPを検出、既にショートリードシーケンサーで検出したSNPを検証しています。
検証にはPacBioの他にFluidigmも使用しています。

Medulloblastoma exome sequencing uncovers subtype-specific somatic mutations. (PMID: 22820256)

92人の髄芽腫と健常人のサンプルを比較しての変異解析です。
Whole-Exomeキャプチャー法で33Mbの範囲を、HiSeq2000 2x76bpでディープシーケンスし、統計的有意な12の遺伝子変異を見つけています。
この変異遺伝子のコーディング領域をFluidigm Access ArrayとPacBio RS で読んで、検証しています。

髄芽腫の、Whole Genome Amplification サンプル（PCR増幅）と、Native DNAサンプルそれぞれ48ずつ、バーコードシーケンスしています。　ちなみにPacでバーコードはまだ製品になってません。

20ラン行い、フィルタリング後のリードが389,215本、サブリードは 4,367,852本、そのうちサンプル由来だとわかったのは64%の2,834,170本のサブリード

このサブリードを、hg19に対してBWA-SWマッピング、GATKを使ってBase-quality recalibrationとSNP 検出。
検出した変異候補は、IGV上でマニュアルキュレーションし、カバレージが十分にあった19の変異を検証しています。

結果ですが、リードごとのエラー率は高いけれど、カバレージを稼いでコンセンサス配列にするとSNPバリデーションに十分使え、実際に2bp detetion をCTDNEP1遺伝子で確認しています。
他のショートリードテクノロジーは、エラーが起こる場所に配列的特異性があり、ランダムでは無いので、コンセンサスにしてもエラーの高い場所と低い場所ができます。
PacBioのエラーは全くランダムに起こる（と言われている）ので、そのぶん、ショートリードで見つけた変異の検証に向いているということです。
しかし、PCRで十分増幅されなかった他の変異箇所、またGenomc DNAを十分な量得られなかった変異箇所は検証に使用できませんでした。

これの補助的論文として、
Pacific biosciences sequencing technology for genotyping and variation discovery in human data. (PMID: 22863213)

があります。
BWA-SWのパラメータは、

Missmatch penalty を3から5へ
Gap open penaltyを5から2へ
Gap extension penaltyを2から1へ
Heuristics （信頼性・精度）を1から20へ　（Ampliconは精度が高い）

と工夫しています。こちらの論文はAmpliconを読んでいます。　同じパラメータを髄芽腫論文でも使用しているそうです。

この論文の途中、次のような一文があります。

“…Pacific Biosciences does not provide a simple measure of base quality score. Instead the software uses the instrument’s estimated insertion error probability as the base’s quality score.”

疑問に思って著者に聞いてみました。

この論文が書かれた時は、PacBioのSMRT Analysisという二次解析ソフトでBLASRマッピングをしてBAMを出すときに、Qualityがinsertionのエラーだけを基本に算出されていたので、実際の質とかけ離れていると問題だったそうです。

それで彼らもBLASRを使わずにBWA‐SWを使ったわけです。

今のPacBioのソフトは彼らが考えた、"PacBio Processing Pipeline" を取り入れ、Insertion以外のエラーも基本に「ある程度正しい」塩基クオリティを出すようになったそうです。

今度は誰かが、そのクオリティはどれくらい確かか、を研究対象にした論文を出しそうな予感が・・・。

パックマンの挑戦　－　PacBioシークエンサー

2012年9月25日火曜日

論文紹介：SNP検出のバリデーションに使用！

0 件のコメント:

コメントを投稿