2012年7月5日木曜日

論文紹介: PacのエラーのCorrectionについて1

祝! 1万ビュー突破!!
  
  こんなマニアックなブロブなのに、始めてから約半年で、10,000 ビューを達成しました!
  ありがとうございます! 


 
  さて、以前、紹介しました、PacBioデータのエラー修正に関する論文がNature Bitechから発表されました!



  
  
PacBioのロングリードは、そのままではエラーが多い(15%くらいと言われています)ので、それを修正するために、CCS(短いリードだけれども何回も同じ所を読んで精度を上げたコンセンサス配列)や、Roche454のリードや、Illumina GAIIやHiSeq2000などのショートリードで同じサンプルを読み、これらショート(といっても数百塩基まで)を、Pacのロングに対してマッピングして、Pacのロングの精度を飛躍的に上げる、という方法論。

ツール自体は今までもあったのですが、論文が出ましたので、少しホッとしています。
方法論については、かなり細かく書かれています。
Celera Assembler というアセンブルツールで最終的にアセンブるのですが、エラーを直さないままのPacロングリードでは全くダメ。
そこで、精度の高いCCSやショートリードをマッピングしてエラーを直してあげることで、ロングの精度を上げる。



http://seqanswers.com/forums/showthread.php?t=18478)を見ると、このツールを使うのに苦労しているひとはいるようです。 
結構時間がかかるそうです。


そこで実際に、Pacのサイトから誰でも自由にダウンロードできるデモデータを使ってみました。


大腸菌MG1655のSequenceデータです。
Long reads: 1 cell of 10 kb shears for CLR (1X90 min movies)
Short reads: 16 cells of 2 kb shears for CCS (2X45 min movies)


詳しくはまた色々試して集計してから書こうと思いますが、とりあえず時間だけ言うと、2時間弱で終わりました。 専用サーバですが、16コアCPUでメモリ32GBなものです。









ということなんですが、SEQanswers の書き込み(

0 件のコメント:

コメントを投稿