2014年1月18日土曜日

ショウジョウバエリシークエンスとFALCON

今週はサンディエゴでPAGミーティングがありましたね。
私は日本で、PacBio本社から来日しているプロダクトマネージャーと一緒に、(願わくば)将来の顧客廻りをしてました。
PAGではどんな話がされていたのでしょうか? 盛り上がったとは聞いています。
PacBioのワークショップセミナーの様子も、間もなく公開されますのでお楽しみに!

さて、そんな中、Drosophila melanogaster (ショウジョウバエ) のシークエンスデータが公開されました。
マンチェスター大学のDr. Casey Bergman、ローレンス・バークレイ国立研究所のDr. Susan Celniker と Dr. Roger Hoskinsとの共同研究で、ショウジョウバエのISO1 (y; cn, bw, sp)株をPacBioで読んだのです。読んだ個体は成虫のオスです。
このプロジェクトは昨年夏ごろから続いていて、その経過は何度かプレゼンで詳細させて頂きました。
今回はそのあと20Kbライブラリ+サイズセレクション、新しい酵素(P5-C3)で読み足したデータは結構すごい!というお話。


【生データ】

  • 総塩基数: 15,208,567,933 bp
  • 総リード数: 1,514,730
  • 平均リード長: 10,040 bp
  • N50リード長:  14,214 bp
  • PacBio RS II でシークエンスに要した時間: 6日
  • 使用したSMRT Cells: 42

平均10Kb !? 本当かよ!っていう数字ですね。 私も正直、信じられません。 
確かめてみます。 少々お待ちを。

まあ、それはおいといて、

Berkeley Drosophila Genome Project (BDGP) のリファレンスゲノムは2007年にリリース5を出しているそうですが、このリファレンス配列に対して、先ず、BLASRマッピングしています。
常染色体で90~95x、X染色体で~45xのカバレッジ(サンプルはXY)

シークエンスカバレッジは、ゲノム全体にわたって、ほぼ均一、という感じです。
一部、トランスポゾンエレメントの挿入部位は、短い配列が多めにマップされてしまうそうです。

では次にアセンブルの結果
こちらはPacBioのブログに詳しいです。(http://blog.pacificbiosciences.com/2014/01/data-release-preliminary-de-novo.html


メリーランド大学のDr. Sergei KorenとDr. Adam Philippyは、昨年末に開発したPacBioToCAの新しいバージョンを使用して、リファレンスゲノムRelease 5 よりも少ないContigを得ることに成功しました。これはすごい!
X染色体については、読んだ個体が成虫のオスだけど、リファレンスはオスメス混合の胚由来、ということが原因かもしれない、とのこと。

ちなみにこれらのデータは上記、PacBioブログからリンクがあるので、誰でもダウンロードできます。


3L染色体が1本のContigになったというのは驚きです!

"haploid assembly" と但し書きがあったのに気が付いた方、そうです、"diploid assembly"というのもPacBioでは開発中なのです。
その名も「FALCON」
ベータ版はすでに公開されてます。 ここ
前のブログでも少し紹介しましたが、Diploid Aware のアセンブリアルゴリズムです。
すごいと思いますが、どうやって確かめるのがベストなのか?
世の中に、Diploidの情報が載っているゲノムリファレンス、ってあるんでしょうか?
もちろんヒトなどではSNPsのデータベースはありますし、ハプロタイプブロックなどの情報はあることにはあるけれど、それらが本当に正しいのかをどうやって見たら良いのでしょうね。
PacBioで読んで、FALCONでアセンブリして、DiploidにContigができたとして、それをどうやって確かめるか・・・ それが問題だ。

ともあれ、FALCONはそのうちPacBioのソフトウェアにデフォルトで入れ込まれるでしょう。


0 件のコメント:

コメントを投稿