2015年4月11日土曜日

PacBio-LITS PacBioでターゲットリシークエンス 2

ターゲットリシークエンスの話の続きです。

Roche-NimbleGen社では、いくつかのエンリッチメントキットを用意しています。
SeqCap EZ Designs というキットをPacBioでは試しているそうです。


  • Comprehensive Cancer Design
  • Neurology Panel Design
  • Human MHC Design
などなど

先のアプリケーションノートで、紹介されている例は、Human MHCとComprehensive Cancerの2つ
このアプリケーションは新しすぎるのか、まだWebsiteにUpされていません
そのうち www.pacb.com/target から落とせるようになると思います

ま、SeqCapEZ のキットで、平均6kbのフラグメントを濃縮できた、ということはすごい!
ゲノムにアラインした様子がこちら
BRCA1遺伝子、上がPacBio、下がIlluminaのデータです
PacBioのデータは、長いのでイントロンまでカバーしているので、イントロン部分のSNVも検出しています


こちらは35kbの長さの遺伝子
あれ? カバレッジが均一でない
それは、おそらく、エンリッチのときの、PCR増幅バイアスでしょうか?

PacBioで行なうターゲットエンリッチメントは、せっかくなので、ロングリードで読むことに意味がある使い方をしないといけませんね
それにはどんな使い方があるか?

ある程度場所が既知の、Fusion Geneのところだけを読む?
数遺伝子だけに絞って、その遺伝子のSNP Phasing を調べる?
そのほかにも、アイデア次第では面白い実験が考えられそうですね。

Phasingといえば、エンリッチしてPacBioで読んだデータ、Reads Of Insertをゲノムにマップした後、Samtoolsを使ってphasingを見ることができます。
Samtoolsでそんな機能があったのか!と驚いたのですが、ここに詳しくやり方が書かれています。
このツールは、SMRT Analysisが入っているサーバで行なうことが前提です
ちょっと、Reads Of Insert mappingなどの基礎知識が必要です

とりあえず、Bamファイルやリファレンスファイル、SMRTCellデータのパスなどを指定して、シェルを流すと、数分で結果は返ってきました

たくさんのファイルが出力されますが、とりあえず表示してみたいのはprefix.0 と1の二種類のマッピングファイル
これがphasingを分けている、らしい

ちなみに私はまだエンリッチされたPacBioデータが手元になかったので、HLAのアンプリコンシークエンスをわざわざReads Of Insert マッピングして、染色体6番のHLA遺伝子近辺だけを見ました

なんか、カバレッジ深すぎ…
IGVはメモリを食うので、深すぎるカバレッジはダメ

そして phase.out ファイル
これはSNP phasingの結果らしいです
PSのところにphase set のSNPが出るはずなんだが
SNPの数が妙に少ない気がする
これはHLA-A、B、Cの遺伝子部分を増幅したアンプリコンのはず


アプリケーションデータで紹介されている、もう少したくさんの遺伝子エンリッチメントのデータでは無いので、イマイチ結果の解釈まではできませんでした
ツールが動く、ということを確認したのみ
サンプルデータで試してみたいですね

というところで今夜はおしまい


0 件のコメント:

コメントを投稿