パックマンの挑戦　－　PacBioシークエンサー: Oropetium ゲノムをPacBioで解読

2015年12月16日水曜日

Oropetium ゲノムをPacBioで解読

前記事のアズキマメのゲノムサイズは540Mb
それに比べるとインパクトは薄いですが、245MbのOropetium thomaeum ゲノムもPacBioで読まれて論文になりました。

Oropetium　なんて発音するんでしょうか？　オロペティウム？　乾燥に強い芝です。

VanBuren et al.,(2015)

植物ゲノムは一般的にサイズが大きく、倍数体を持つため、アセンブリが非常に困難です。

でもこの植物のゲノムサイズは比較的小さい245Mbで、全体の43%がリピート配列だそうです。

タンパクコーディング遺伝子の数は28,466個。ヒトより多いですね。

この論文の共同著者には、PacBioの社員が何人も含まれています。

なーるほど、つまり、Best of the Bests 的な仕事なわけですね。

20 kb ライブラリを作成し、Blue Pippinで15kbカットオフ

P6-C4ケミストリーを使って何と、72xも読んでいる！　245Mb X 72 = 17.64Gb
32セルランしてかかった時間は1週間
今なら十分可能です。　P5だとちょっと厳しかったかな。

アセンブリはPacBioらしく、HGAPを使用。
エラー補正後のサブリードの、16kb以上の長さのものを使ってアセンブリし、最後にQuiverを2回。

650本のContigは全ゲノムの99％をカバーし、N50 は2.4Mbに達したとのこと。

このOropetiumゲノムアセンブリ結果のすごいのは、18箇所のテロメアにて、40から900のリピート配列をきちんと捕らえ、また9つのうち3つのセントロメア領域もカバーできたことです。
なかなかやるなあ。

時間とコストについても述べています。
"The total time from extracted DNA to a complete assembly was less than one month, and costs for PacBio were comparable to an Illumina-based genome assembly."
つまりコスパが良い！
日本でのランニングコストに見合せても、同じことが言えるでしょう。きっと。

またエラーについても、シングルリードのエラー率が15-20%であるが、Contigレベルでは99.99995%に達し、Sangerシークエンスと比べても遜色無いことを述べています。

PacBioの社員が研究に加わっているので当たり前かもしれませんが、PacBio Onlyでシークエンスすることをお勧めしていますね。

でもこの精度の高さにはちょっと驚き。

パックマンの挑戦　－　PacBioシークエンサー

2015年12月16日水曜日

Oropetium ゲノムをPacBioで解読

0 件のコメント:

コメントを投稿