たまにチェックするブログがあります。 (http://www.homolog.us/blogs/blog/2013/09/21/end-illumina-era)
ここに、先週、カリフォルニア州パロアルトで行われた「北米・PacBioユーザーグループミーティング」の内容が書かれています!
私も今回は参加したのでわかりますが、このブログはすごく良くまとまっているので一見の価値ありです!
「ショートリードの時代の終わり?」と題していますが、バクテリアデノボの世界ではまさにそうでしょう。
今回のグループミーティングでも、バクテリア関連(デノボアセンブリ、メチレーション)が4割、トランスクリプトームが3割、高等生物アセンブリが2割、MHCなどその他が1割、という割合だった気がします。
およそ60人が参加した今回のグループミーティング(休憩時間とランチタイムの様子)
さて、私が興味を持ったトピックスは、バクテリア以外です。
1.Arabidopsis(Salk Institute for Biological Studies);Arabidopsisは、Colombia 10のゲノム配列が読まれ公開されていますが、まだ800株ほどの読まれていない株があるそうです。
彼らはPacBioのリードだけを用いてアラビの株をたくさん読んで、株間のゲノム比較を行っています。
Ler-0 株を例にとると、20kbライブラリを作り、ゲノムサイズ120Mbの50x分のデータを得ました。
HGApを使ってアセンブリしたところ、Contig本数は540本、塩基総数は124Mbp、N50 = 6.2Mbp、Max 13Mbpという結果を得ました。
この、20kbライブラリ作製のところで、BluePippinを使っています。
Col0株も読んでおり、TAIR10のリファレンスゲノムとの比較では99%以上の一致を得たので、Ler-0株もそれなりに高い精度のContigが作られているという感触を持っているみたいです。
現在多くのSNPやInDelが見つかっているのでそれらを検証しているとのこと。
1株のアセンブルに要した時間はおよそ10日。うち9日間はHGApのPre-Assembly(最初のエラーコレクション)に要した時間です。 Pre-Assemblyの時間を短くするのが課題ですね。
実はSMRT Analysisの次のバージョンで、Pre-Assemblyが劇的に速くなるオプションがつくのですが、まだベータ版です。
2.チキンRNA-Seq(Gladstone Institute);ニワトリの心臓とヒトの心臓は構造が似ているため、モデルにはちょうど良いそうです。 しかしニワトリのRefSeq情報はまだ6,500配列しかなく、不十分。 そこで完全長cDNA=Isoformの配列データを得る必要があるという。
今までショートリードで読み、Trinityなどのツールを使って解析してきたが、今回PacBioを使ってIsoformデータを得ることに挑戦したそうです。
0-1kb,1-2kb,2-3kb,>3kbの4種類のライブラリを作り、フルパスサブリード配列のみを対象に、イルミナのリードでエラーコレクションし、ゲノム参照配列にアラインしました。 Geneアノテーションを行ったところ、新しいTranscriptが2000程見つかったそうです。
3.ヒトTranscriptome(Stanford Univ);LSCという配列圧縮/エラー補正アルゴリズムを用いて、完全長cDNAの解析を行っていました。スプライシングの検出には完全長が不可欠です。 曰く、Cufflinksなどのショートリード向けのツールは、ベースにしている理論が数学的でありバイオロジカルな現象を反映して無い、と。
エラーコレクションを行った後のPacBioリードを、BLATでゲノムにアラインしました。 8,084本の既知の転写産物+5,459本の新規転写産物を得たそうです。
PacBioでは間もなく、新しい試薬がリリースされる予定です。
P5/C3 ケミストリーは、ロングリードをさらに伸ばして、平均8,500bpを実現します。
と言っても、これはポリメラーゼリード長です。 サブリード長を伸ばすには、20kbライブラリ+サイズセレクションが必須です。
そんなわけで、今回の演者で20kbライブラリを作った人はみな、BluePippinを使ったサイズセレクションを行っていました。
BPのメーカーであるSage Science社のTwitterで知ったのですが、MRSAから抽出したDNAを、20kbライブラリ+BPサイズセレクション実行後、P5/C3試薬を使い3時間Movieで読んだら、最高34,500bpのポリメラーゼリードを得たそうです!
0 件のコメント:
コメントを投稿