パックマンの挑戦　－　PacBioシークエンサー: BioTechniques の記事から

春ですね。

新学期開始かな？　早稲田大学の近くを通ったら、サークル勧誘のブースが見えました。

地下鉄にも、社会人一年生らしきスーツ姿がちらほら。

今日はBioTechniques の記事「Going to Great Read Lengths」を紹介します。

NGSの登場は、シークエンスのコストを格段に下げました。　
1000ドルゲノムも夢ではない！　と言われてから数年、それが現実にならないのは、NGSが、コストと引き換えにリード長を犠牲にしているからです。
（ヒトゲノム3Gと同じ量の塩基を仮に数千ドルで出せても、情報量ではサンガーで数十億ドルかけて読んだ20年前に負けるのです。　と言うと言い過ぎかな？）

アカゲザルのゲノム、はNGSで読まれたそうですが、ゲノム全体の20%もギャップがあるそうです。
リード長が数百bpではそれ以上のリピートは読めない。　
実際にアカゲザルゲノムではそれだけたくさんのリピート、ショートでは読めない領域があるということでしょうか。

自然の流れで、長い配列を読む必然性が出てくるのですが、こちらもいくつか方法が分かれます。
DNAをそのまま、連続して長く読むPacBioのような方法。
DNAを長いまま別々に維持し、その長いDNAをショートで読むけれども後でどのDNA由来だったのかをわかるようにしておいて、アセンブルすることで元の長いDNAを再現する、Moleculoのような方法。
いずれも、長く読むニーズがあるからこそ、注目されているのでしょう。

さて、この記事で2つのツールが紹介されています。
1つは、ショートリードで読んで作ったContig、SuperContigの中のギャップを、PacBioのロングリードでクローズする、PB-Jellyというツール
もう一つは、東大の浜田先生らによる、PacBioデータのシュミレーションツール、PBSIM
浜田先生とは何度か会って話す機会がありましたが、PacBioの精度は世間で思われているより悪くない、そうです。　私が言うより説得力があると思います。

PB‐Jellyは、私もギャップクローズに用いています。　
大型ゲノムのScaffoldの、ギャップクローズ用のツールとしては、今はこれが一番良いような気がします。
PacBioの二次解析ソフトウェアの一部、BLASRとAlloraを使います。　　
ちょっとそれなりに時間がかかるかなあ、という感じ。
論文ではサルやセキセイインコ（1.3Gb）レベルのゲノムに挑戦していました。

PB‐Jelly
English, A.C., S. Richards, Y. Han, M. Wang, V. Vee, J. Qu, X. Qin, D.M. Muzny, J.G. Reid, K.C. Worley, and R.A. Gibbs. 2012. Mind the gap: upgrading genomes with Pacific Biosciences RS long-read sequencing technology. PLoS One 7(11):e47768. doi: 10.1371/journal.pone.0047768.

PBSIM
Ono, Y., K. Asai, and M. Hamada. 2013. PBSIM: PacBio reads simulator--toward accurate genome assembly. Bioinformatics 29(1):119-21. doi: 10.1093/bioinformatics/bts649.

パックマンの挑戦　－　PacBioシークエンサー

2013年4月5日金曜日

BioTechniques の記事から

0 件のコメント:

コメントを投稿