春ですね。
新学期開始かな? 早稲田大学の近くを通ったら、サークル勧誘のブースが見えました。
地下鉄にも、社会人一年生らしきスーツ姿がちらほら。
今日はBioTechniques の記事「Going to Great Read Lengths」を紹介します。
原文はこちら
NGSの登場は、シークエンスのコストを格段に下げました。
1000ドルゲノムも夢ではない! と言われてから数年、それが現実にならないのは、NGSが、コストと引き換えにリード長を犠牲にしているからです。
(ヒトゲノム3Gと同じ量の塩基を仮に数千ドルで出せても、情報量ではサンガーで数十億ドルかけて読んだ20年前に負けるのです。 と言うと言い過ぎかな?)
アカゲザルのゲノム、はNGSで読まれたそうですが、ゲノム全体の20%もギャップがあるそうです。
リード長が数百bpではそれ以上のリピートは読めない。
実際にアカゲザルゲノムではそれだけたくさんのリピート、ショートでは読めない領域があるということでしょうか。
自然の流れで、長い配列を読む必然性が出てくるのですが、こちらもいくつか方法が分かれます。
DNAをそのまま、連続して長く読むPacBioのような方法。
DNAを長いまま別々に維持し、その長いDNAをショートで読むけれども後でどのDNA由来だったのかをわかるようにしておいて、アセンブルすることで元の長いDNAを再現する、Moleculoのような方法。
いずれも、長く読むニーズがあるからこそ、注目されているのでしょう。
さて、この記事で2つのツールが紹介されています。
1つは、ショートリードで読んで作ったContig、SuperContigの中のギャップを、PacBioのロングリードでクローズする、PB-Jellyというツール
もう一つは、東大の浜田先生らによる、PacBioデータのシュミレーションツール、PBSIM
浜田先生とは何度か会って話す機会がありましたが、PacBioの精度は世間で思われているより悪くない、そうです。 私が言うより説得力があると思います。
PB‐Jellyは、私もギャップクローズに用いています。
大型ゲノムのScaffoldの、ギャップクローズ用のツールとしては、今はこれが一番良いような気がします。
PacBioの二次解析ソフトウェアの一部、BLASRとAlloraを使います。
ちょっとそれなりに時間がかかるかなあ、という感じ。
論文ではサルやセキセイインコ(1.3Gb)レベルのゲノムに挑戦していました。
PB‐Jelly
English, A.C., S. Richards, Y. Han, M. Wang, V. Vee, J. Qu, X. Qin, D.M. Muzny, J.G. Reid, K.C. Worley, and R.A. Gibbs. 2012. Mind the gap: upgrading genomes with Pacific Biosciences RS long-read sequencing technology. PLoS One 7(11):e47768. doi: 10.1371/journal.pone.0047768.
PBSIM
Ono, Y., K. Asai, and M. Hamada. 2013. PBSIM: PacBio reads simulator--toward accurate genome assembly. Bioinformatics 29(1):119-21. doi: 10.1093/bioinformatics/bts649.
0 件のコメント:
コメントを投稿