パックマンの挑戦　－　PacBioシークエンサー: ターゲットリシークエンスと変異　3

Agilent Technologies社のSure SelectというターゲットエンリッチメントシステムについてはショートリードのNGSでもおなじみ。
さて、これをPacBioのロングリードでやってみるとどうなるのでしょうか？

このポスターでは、2つのHapMapサンプルと、Tumor/Normalサンプルを使って、SureSelectでターゲットをキャプチャーし、それをPacBioで読んでいます。　
（直リンクを貼るわけにはいかないので、"Development of SureSelect Target Capture Methods for Sequencing on the PacBio RS"　をGoogleで検索してAgilent社のPDFをゲットして下さい。PacBioのサイトからも取れます。）

M&Mを簡単に言うと、1マイクログラムのgDNAをCovarisを使って250bpまたは2kbに切断した後、SureSelectシステムの中でベイトRNAとミックスし、0.5Mb Chr10＋X（Contig + Exons）領域をキャプチャーします。　その後はPacBioのライブラリー作成プロトコールに従い、250bp、または2kbの2種類のライブラリーを作っています。

シークエンスは45分ムービーを2回、読んでいます。　つまり、250bpのライブラリーはCCS(Circular Consensus Sequence)で何回もぐるぐる読み、2kbはCLR(Continuous Long Read)で読んでいることと同じです。
実際何個のSMRT Cellを使ったのか、という情報が欠けているのですが、CLRで200X～500XのSub-readのカバレージを得たそうです。（http://www.pacificbiosciences.com/applications/target　の、Technical Note: Targeted Sequencing on the PacBio RS using Agilent Technologies SureSelect Target Enrichment）
しかし実際は、ここまでカバレージを取らなくても良いでしょう。　その例はまた今度お見せします。

さて、250bpと2kbの2種類の塩基長でキャプチャーした場合、結果はどう違うでしょうか？
まず、マッピングの結果、2kbのほうが、250bpよりも均一にゲノムをカバーしました。
隣合うキャプチャーベイトのプローブをまたいでマッピングできたのも2kbのほうです。
DNA断片が2kbだと、ターゲット領域の上流・下流の配列も長くとれてくるので、のちのデータ処理では、ターゲット領域上に取れてきた配列のみにフィルタリングしたい場合、注意が必要でしょう。
話はずれますが、ショートリードの時は、

リードをゲノムにマッピングし　（BWA）
冗長性のあるリード・Duplicateを除去し　（SamtoolsやPicard）
キャプチャーしたExon領域だけを取り出し　（Bedtools）

という流れが来ると思いますが、Pacのデータの場合、データ量が（HiSeqとかに比べると）少ないので、キャプチャー領域だけを取り出すのはもったいない気がします。個人的にですけど。

さて、それからSNPを見てみると、2kbでは、250kbでは見つからなかった既知SNPも見つかったそうです。　
上が2kbで下が250bpで、山の形はカバレージを表しています。　某遺伝子の3’-UTRの部分が拡大されていますね。　
青い囲みは2kbと250bpの両方で見つかった既知SNP、赤い囲みは2kbでのみ見つかったSNPだそうで。

こういうのがたくさん見つかるとしたら、2kbのライブラリーを作ってみたくもなるでしょうね。

あと、長いライブラリーのほうがGCバイアスにも強いし、ギャップも埋められる、という利点があるので、ショートでは見つからなかった変異も見つけることができる！　って、言われますが、まだインパクトのある実例が無いのが残念!!

で、結局、SMRT Cellは何個必要なの？

この答は、あくまで計算上でしかわかりません。
実際に何個使って、どれくらいのカバレージで、新規SNPを見ーぃつけた！　という論文やポスターがあれば参考になるのですが。
今年を期待しています。

さて、計算上はどうでしょうか。

例えば、10Mbの、ターゲットキャプチャーをして、その場所の20%の変異を見つけたい場合。
2kbのライブラリーを使うとして、最低必要カバレージは150Xと想定（前回のブログ参照）。
ターゲットの数は、単純に10Mbを2kbで割った5,000というわけではありません。
プローブがいくつ設定されているかは、ケースバイケースなので、ターゲットの数はとりあえずN としましょうか。
2kbライブラリーで「使える」CRL subreadは、1SMRT Cellあたり50,000とします（前回のブログ参照）。
サンプルバイアスを3とします。（3倍ぐらい多めに読んだ方が安全ということ。上記SureSelectの例でも200~500Xのカバレージを得たとありますので、最低カバレージ150とすると、3倍くらい多めに読むつもりでやっています）
するとSNP検出に必要リード数は、3x150xN= 450N
必要なSMRT Cellの数は、これを50,000で割って、0.009N

ターゲット数が1,000ならSMRT Cell 9個
5,000なら45個
10,000なら90個

・・・・・・

結構な数ですよ、これは

パックマンの挑戦　－　PacBioシークエンサー

2012年3月3日土曜日

ターゲットリシークエンスと変異　3 - SureSelect

0 件のコメント:

コメントを投稿

2012年3月3日土曜日

ターゲットリシークエンスと変異 3 - SureSelect

0 件のコメント:

コメントを投稿

ターゲットリシークエンスと変異　3 - SureSelect