2015年12月16日水曜日

Oropetium ゲノムをPacBioで解読

前記事のアズキマメのゲノムサイズは540Mb
それに比べるとインパクトは薄いですが、245MbのOropetium thomaeum ゲノムもPacBioで読まれて論文になりました。

Oropetium なんて発音するんでしょうか? オロペティウム? 乾燥に強い芝です。
VanBuren et al.,(2015)

植物ゲノムは一般的にサイズが大きく、倍数体を持つため、アセンブリが非常に困難です。
でもこの植物のゲノムサイズは比較的小さい245Mbで、全体の43%がリピート配列だそうです。
タンパクコーディング遺伝子の数は28,466個。ヒトより多いですね。

この論文の共同著者には、PacBioの社員が何人も含まれています。
なーるほど、つまり、Best of the Bests 的な仕事なわけですね。

20 kb ライブラリを作成し、Blue Pippinで15kbカットオフ
P6-C4ケミストリーを使って何と、72xも読んでいる! 245Mb X 72 = 17.64Gb
32セルランしてかかった時間は1週間
今なら十分可能です。 P5だとちょっと厳しかったかな。

アセンブリはPacBioらしく、HGAPを使用。
エラー補正後のサブリードの、16kb以上の長さのものを使ってアセンブリし、最後にQuiverを2回。

650本のContigは全ゲノムの99%をカバーし、N50 は2.4Mbに達したとのこと。

このOropetiumゲノムアセンブリ結果のすごいのは、18箇所のテロメアにて、40から900のリピート配列をきちんと捕らえ、また9つのうち3つのセントロメア領域もカバーできたことです。
なかなかやるなあ。

時間とコストについても述べています。
"The total time from extracted DNA to a complete assembly was less than one month, and costs for PacBio were comparable to an Illumina-based genome assembly."
つまりコスパが良い!
日本でのランニングコストに見合せても、同じことが言えるでしょう。きっと。

またエラーについても、シングルリードのエラー率が15-20%であるが、Contigレベルでは99.99995%に達し、Sangerシークエンスと比べても遜色無いことを述べています。
PacBioの社員が研究に加わっているので当たり前かもしれませんが、PacBio Onlyでシークエンスすることをお勧めしていますね。

でもこの精度の高さにはちょっと驚き。




0 件のコメント:

コメントを投稿