Roche-NimbleGen社では、いくつかのエンリッチメントキットを用意しています。
SeqCap EZ Designs というキットをPacBioでは試しているそうです。
- Comprehensive Cancer Design
- Neurology Panel Design
- Human MHC Design
先のアプリケーションノートで、紹介されている例は、Human MHCとComprehensive Cancerの2つ
このアプリケーションは新しすぎるのか、まだWebsiteにUpされていません
そのうち www.pacb.com/target から落とせるようになると思います
ま、SeqCapEZ のキットで、平均6kbのフラグメントを濃縮できた、ということはすごい!
ゲノムにアラインした様子がこちら
BRCA1遺伝子、上がPacBio、下がIlluminaのデータです
PacBioのデータは、長いのでイントロンまでカバーしているので、イントロン部分のSNVも検出しています
こちらは35kbの長さの遺伝子
あれ? カバレッジが均一でない
それは、おそらく、エンリッチのときの、PCR増幅バイアスでしょうか?
PacBioで行なうターゲットエンリッチメントは、せっかくなので、ロングリードで読むことに意味がある使い方をしないといけませんね
それにはどんな使い方があるか?
ある程度場所が既知の、Fusion Geneのところだけを読む?
数遺伝子だけに絞って、その遺伝子のSNP Phasing を調べる?
そのほかにも、アイデア次第では面白い実験が考えられそうですね。
Phasingといえば、エンリッチしてPacBioで読んだデータ、Reads Of Insertをゲノムにマップした後、Samtoolsを使ってphasingを見ることができます。
Samtoolsでそんな機能があったのか!と驚いたのですが、ここに詳しくやり方が書かれています。
このツールは、SMRT Analysisが入っているサーバで行なうことが前提です
ちょっと、Reads Of Insert mappingなどの基礎知識が必要です
とりあえず、Bamファイルやリファレンスファイル、SMRTCellデータのパスなどを指定して、シェルを流すと、数分で結果は返ってきました
たくさんのファイルが出力されますが、とりあえず表示してみたいのはprefix.0 と1の二種類のマッピングファイル
これがphasingを分けている、らしい
ちなみに私はまだエンリッチされたPacBioデータが手元になかったので、HLAのアンプリコンシークエンスをわざわざReads Of Insert マッピングして、染色体6番のHLA遺伝子近辺だけを見ました
なんか、カバレッジ深すぎ…
IGVはメモリを食うので、深すぎるカバレッジはダメ
そして phase.out ファイル
これはSNP phasingの結果らしいです
PSのところにphase set のSNPが出るはずなんだが
SNPの数が妙に少ない気がする
これはHLA-A、B、Cの遺伝子部分を増幅したアンプリコンのはず
…
アプリケーションデータで紹介されている、もう少したくさんの遺伝子エンリッチメントのデータでは無いので、イマイチ結果の解釈まではできませんでした
ツールが動く、ということを確認したのみ
サンプルデータで試してみたいですね
というところで今夜はおしまい
0 件のコメント:
コメントを投稿