2016年10月1日土曜日

Sequel データ ついに公開!

Sequelのデータはどんなものか見てみたい!
という方のために、ようやく、オープンにできるデータセットがウェブにアップされました。
待ちに待ったという感じです。2015年10月1日のSequelリリースから早1年。
(今まで、オープンにできる程の「満足なデータ」が出ていなかった、というのも一方で事実です・・・)

今回公開されたシークエンスデータは、Arabidopsis thaliana  Ler-0 ゲノムを、Sequelの1M SMRT Cell 2つで読んで得られたもの。


ひとつ注意点として、このデータは、2016年9月現在の試薬・プロトコルを使ったランではありません。
今のケミストリーのローディングを向上させた、次バージョンの試薬・プロトコルを使用しているそうです。

先ず、20 μg のきれいなゲノムを 32 kb でシェアリング、ライブラリ作製した後、Blue Pippinで 20 kb サイズセレクション
12セル分のライブラリが回収できて、そのうち 2セルを6時間シークエンス
ローディング効率としては、on plate 濃度が 144 pmol ーこの数字はRSIIと同じです。(今までSequelでは、RSIIより遥かに多いDNA量を要求されていました)

この2セルから出てきたデータの集計です
総塩基数 10.8Gb(1セル5Gb)
MappableなサブリードN50が14.8kb!(注:平均サブリードではなく、Mapped サブリードのN50)
今回公開されたデータの注目すべき点のひとつは、20kbサイズセレクションされたロングライブラリーも、RSIIと同じくらいの長さのシークエンスができたことです。
今まで「数kbのショートライブラリならちゃんと読めるけれども、10kb以上のロングライブラリは、Sequelではまだ十分読めない」ということを、噂で聞いたことがあるかもしれません。ええ、本当です
でもこのデータで、新試薬からは20kbロングライブラリにも十分対応できることが示されました、ね。

もうひとつの注目点は、先にも挙げた、ローディング効率です。
RSIIと同じ、144 pmol のライブラリ量でもシークエンスできるようになったことで、ライブラリ作製の手間とコスト、必要DNA量がだいぶ抑えられるようになりました。
とは言ってもまだ20μgからスタートしていますので、少ない量とは言えませんが・・・。


生データもダウンロードできます。
Subread.bamという、シークエンスデータなのにBAMファイル!!です
Sequelの生データについてはまた別の機会に

ちなみにアセンブリ結果はこちら
Falcon Assemblyの結果、Contig N50は10.4Mb
表の一番右がSequelの結果で、その隣、比較対象がP5C3って・・・。
P6C4との比較は無いの!? という突っ込みはさておき、Sequelでもちゃんとここまでの結果出ますよ、的な結果でした。

0 件のコメント:

コメントを投稿