2012年9月26日水曜日

PacBioを使った国内での研究

東京大学農学部2号館で開催された、インフォマティクスオープンセミナーに行ってきました。
"Challenge to de novo sequence of relatively large genomes with new sequence technologies"
BGI、東京大学 大学院農学生命科学研究科
アグリバイオインフォマティクス教育研究ユニット
新学術領域「複合適応形質進化の遺伝子基盤解明」共催
http://www.iu.a.u-tokyo.ac.jp/main_event.html

演題は5つあり、そのうち3つにて、PacBio RSのデータを使った話があるとのこと、これは "Must Lissen to" だろうと思っていましたが、まさにその期待通りの内容でした。

de novo Assembly がテーマなので、非モデル生物のゲノムプロジェクトの話、どうやって数ギガのサイズのアセンブリを遂行させるか、PacBioを使ったときの良いところ、改善が必要なところ、エラーコレクションの方法、リピートの処理について …etc.

改めて言うまでもないかもしれませんが、高等生物のゲノムアセンブリの場合、リピートの扱いがとても厄介なんです。 複数の繰り返し配列、segmental duplication などは、ショートリードではちゃんと正確に読むことが難しいかほぼ不可能。

そのためロングリードが救世主となるわけなんですが、Pacといえども短所があります。
長さが一定では無い(例えば出力リードの長さが "平均" 3Kbであること)
シーケンスエラーが他のテクノロジーと比べると高い(15%くらい)
ランコストがまだまだ高価(というと怒られるかもしれませんが)
などです。
そこを考慮しても、他のシーケンサーでは得られない「超ロングリード」という長所が、de novoのアセンブリにはとても魅力的なんですね。

話のほとんどがまだ論文途中のものでした。
ですが皆さん、結構オープンに話していて、会場も質疑応答が絶えませんでした。

知っての通り、PacBioはまだ日本に来て1年も経っていません(2012年9月現在)。 ですから、実際どんなもの何だろう? 本当に使えるのか?と疑問に思っている研究者は多いと思います。

アメリカでは、Early Accessと言って2年以上前から導入されていたところもありますし、現在も多くのユーザーがいて、ノウハウもだいぶ蓄積されつつありますが、なかなか日本には情報が入って来ないと思います。
そんな中、日本のPacBioユーザー、あるいはBGIのような日本のPacBioユーザーの共同研究先が、本音で語ってくれるこのような会はとても貴重でした。
我々メーカーが宣伝するより何倍もインパクトがありますからね。
オーガナイザーの長谷部先生、西山先生、門田先生には感謝です!!


さて、今回の他にも、Pacを使った日本での研究例をもっと知りたい!という方にお勧めのセミナーがあります。

10月10日(水)、パシフィコ横浜で開かれるBio Japan 2012で、「先端シーケンサーが拓く沖縄生物資源」と題したスポンサーセミナーがあります。 詳細プログラム
沖縄工業技術センターの照屋先生の講演がPacBioを使ったゲノム解析についてです。
当日、ちょっとしたサプライズも用意していますので、時間と興味のある方は是非参加したらいかがでしょう?
無料ですが、参加にはBioJapanの公式ホームページから登録する必要があるそうです。

2012年9月25日火曜日

論文紹介:SNP検出のバリデーションに使用!

最近、PacBioを使っての論文がたくさん出ています。
一番最近のは、PacBioの超ロングリードに対応したMappingツール、BLASRのアルゴリズム
Mapping single molecule sequencing reads using Basic Local Alignment with Successive Refinement (BLASR): Theory and Application (PMID: 22988817)
このBLASRというMappingツールは、PacBioの二次解析ソフトウェアについてきます。
もちろんフリーなので、PacBioのユーザー以外でも使うことができます。

このBLASRがまだ前のバージョンだった頃、Broad Instituteでは、既存の有名なMappingツール、BWA-SWを使ってPacBioで読んだターゲットリードをゲノムにMappingし、その後GATKでSNPを検出、既にショートリードシーケンサーで検出したSNPを検証しています。
検証にはPacBioの他にFluidigmも使用しています。

Medulloblastoma exome sequencing uncovers subtype-specific somatic mutations. (PMID: 22820256)

92人の髄芽腫と健常人のサンプルを比較しての変異解析です。
Whole-Exomeキャプチャー法で33Mbの範囲を、HiSeq2000 2x76bpでディープシーケンスし、統計的有意な12の遺伝子変異を見つけています。
この変異遺伝子のコーディング領域をFluidigm Access ArrayとPacBio RS で読んで、検証しています。

髄芽腫の、Whole Genome Amplification サンプル(PCR増幅)と、Native DNAサンプルそれぞれ48ずつ、バーコードシーケンスしています。 ちなみにPacでバーコードはまだ製品になってません。

20ラン行い、フィルタリング後のリードが389,215本、サブリードは 4,367,852本、そのうちサンプル由来だとわかったのは64%の2,834,170本のサブリード

このサブリードを、hg19に対してBWA-SWマッピング、GATKを使ってBase-quality recalibrationとSNP 検出。
検出した変異候補は、IGV上でマニュアルキュレーションし、カバレージが十分にあった19の変異を検証しています。

結果ですが、リードごとのエラー率は高いけれど、カバレージを稼いでコンセンサス配列にするとSNPバリデーションに十分使え、実際に2bp detetion をCTDNEP1遺伝子で確認しています。
他のショートリードテクノロジーは、エラーが起こる場所に配列的特異性があり、ランダムでは無いので、コンセンサスにしてもエラーの高い場所と低い場所ができます。
PacBioのエラーは全くランダムに起こる(と言われている)ので、そのぶん、ショートリードで見つけた変異の検証に向いているということです。
しかし、PCRで十分増幅されなかった他の変異箇所、またGenomc DNAを十分な量得られなかった変異箇所は検証に使用できませんでした。

これの補助的論文として、
Pacific biosciences sequencing technology for genotyping and variation discovery in human data. (PMID: 22863213)

があります。
BWA-SWのパラメータは、
  • Missmatch penalty を3から5へ
  • Gap open penaltyを5から2へ
  • Gap extension penaltyを2から1へ
  • Heuristics (信頼性・精度)を1から20へ (Ampliconは精度が高い)
と工夫しています。こちらの論文はAmpliconを読んでいます。 同じパラメータを髄芽腫論文でも使用しているそうです。
 
この論文の途中、次のような一文があります。
“…Pacific Biosciences does not provide a simple measure of base quality score. Instead the software uses the instrument’s estimated insertion error probability as the base’s quality score.”
疑問に思って著者に聞いてみました。
この論文が書かれた時は、PacBioのSMRT Analysisという二次解析ソフトでBLASRマッピングをしてBAMを出すときに、Qualityがinsertionのエラーだけを基本に算出されていたので、実際の質とかけ離れていると問題だったそうです。
それで彼らもBLASRを使わずにBWA‐SWを使ったわけです。
今のPacBioのソフトは彼らが考えた、"PacBio Processing Pipeline" を取り入れ、Insertion以外のエラーも基本に「ある程度正しい」塩基クオリティを出すようになったそうです。
 
今度は誰かが、そのクオリティはどれくらい確かか、を研究対象にした論文を出しそうな予感が・・・。