パックマンの挑戦　－　PacBioシークエンサー: 論文紹介：　PacのエラーのCorrectionについて１

2012年7月5日木曜日

論文紹介：　PacのエラーのCorrectionについて１

祝！　1万ビュー突破！！

　　こんなマニアックなブロブなのに、始めてから約半年で、10,000 ビューを達成しました！

　　ありがとうございます！　

　
　　さて、以前、紹介しました、PacBioデータのエラー修正に関する論文がNature Bitechから発表されました！

“　“Hybrid error correction and de novo assembly of single-molecule sequencing reads.”

　　　Sergey Koren et al.,　

· 　“A hybrid approach for the automated finishing of bacterial genomes.”

　　　Ali Bashir et al.,

PacBioのロングリードは、そのままではエラーが多い（15%くらいと言われています）ので、それを修正するために、CCS（短いリードだけれども何回も同じ所を読んで精度を上げたコンセンサス配列）や、Roche454のリードや、Illumina GAIIやHiSeq2000などのショートリードで同じサンプルを読み、これらショート（といっても数百塩基まで）を、Pacのロングに対してマッピングして、Pacのロングの精度を飛躍的に上げる、という方法論。

ツール自体は今までもあったのですが、論文が出ましたので、少しホッとしています。

方法論については、かなり細かく書かれています。

Celera Assembler というアセンブルツールで最終的にアセンブるのですが、エラーを直さないままのPacロングリードでは全くダメ。

そこで、精度の高いCCSやショートリードをマッピングしてエラーを直してあげることで、ロングの精度を上げる。

http://seqanswers.com/forums/showthread.php?t=18478)を見ると、このツールを使うのに苦労しているひとはいるようです。　
結構時間がかかるそうです。

そこで実際に、Pacのサイトから誰でも自由にダウンロードできるデモデータを使ってみました。

大腸菌MG1655のSequenceデータです。
Long reads: 1 cell of 10 kb shears for CLR　（1X90 min movies）
Short reads: 16 cells of 2 kb shears for CCS　（2X45 min movies）

詳しくはまた色々試して集計してから書こうと思いますが、とりあえず時間だけ言うと、2時間弱で終わりました。　専用サーバですが、16コアCPUでメモリ32GBなものです。

ということなんですが、SEQanswers の書き込み(

パックマンの挑戦　－　PacBioシークエンサー

2012年7月5日木曜日

論文紹介：　PacのエラーのCorrectionについて１

0 件のコメント:

コメントを投稿

2012年7月5日木曜日

論文紹介： PacのエラーのCorrectionについて１

0 件のコメント:

コメントを投稿

論文紹介：　PacのエラーのCorrectionについて１