2013年6月21日金曜日

150KとP4

突然ですが、今年の流行語大賞は何でしょうね? 
「アベノミクス」、「今でしょう?」、この2つのどっちかじゃないか、と今から予想しています。
http://singo.jiyu.co.jp/index.htmlを見ると、ああ、そういう言葉もはやったね、と思いますが、流行語ってほとんど定着しないんですね。
アベノミクスが来年忘れられるようでは困りますが、「今でしょう?」はまさに今しか受けない、というか、そろそろ使用期限が切れるフレーズかな?
小学生の間ではまだすごいブームらしいです。


さてさて、ユーザーの方にはもちろんアナウンス済みですが、PacBioはハード・ソフトの両面でバージョンアップします(しました)。

ハードは、以前「第一回アジアユーザーミーティング in シンガポール」でも触れた、RSIIです。 

これは今まで、一度に読めるZMWの数が75,000だったのが、レーザーの光を分散させる光学機器の改善で、一度に150,000読めるようになったことです。
120分Movieで今まで750,000しか読めなかったのが2倍読めるようになった。つまりデータスループットが2倍になったことを意味します。
 
1セルあたりおよそ200Mbp、というのは控えめかもしれません。
私たちがあるバクテリアを10kbライブラリで読んでみた時、Productivity=1(信頼のあるリードデータ)が31%くらいのデータで、220Mbpでした。
その時はN=3でしたが、以来サンプルを変えて何セル読んでも大体今までの2倍は読める。
宣伝に偽り無し、でほっと一安心! (← ユーザーの立場での感想)
上図の、左側が今までのRS、右がRSII
リード長がX軸で、Y軸にその本数を示しています。 縮尺を合わせました。 どちらもProductivity=1が31%で、RSが102Mbp、RSIIが221Mbpのスループットでした。
分布「形」にはあまり差は無いのがわかるでしょう? 高さは大きく変わっています。
 
 
バージョンアップのソフトの方、こちらは、 酵素です。
P4という酵素がリリースされました。
こちらは、すごい改善! というわけでは無いのですが、より安定して、今までと同じく長く読める酵素です。
今まで、C2とXLという2種類の酵素がありました。
C2は精度は良いがスピードが遅いので長さがいまいち(平均3300bpくらい)
XLは精度が若干落ちるがスピードが速いので平均4000bpくらい
 
P4は、C2とXLの良いとこ取り、で、C2の精度を保ちつつXLの長さを獲得した酵素です。
例えば、4.65Mbpのゲノムサイズのバクテリアを、C2、XL、P4の3種類で読んだデータがPacBioのプレゼンにあります。
10kbライブラリでセルを2個使って読み、HGAP-Celera Assembler でアセンブリしています。
C2とP4は最終的にContigが1つになりました。
XLでContigが1つにならなかったのは何で?とツッコミたくなりますが、それには触れていません。
注目すべきはマッピングできたサブリードの精度で、
  • C2  86.21%
  • XL  84.09%
  • P4  88.28%
 
さらにContigの精度も、Phredスコアで言うと
  • C2  58 (21x, 97x)
  • XL  49 (16x, 113x)
  • P4  57 (22x, 112x)
括弧内最初は、アセンブルする直前の、HGAPでエラー補正した後のリードカバレッジ、次はHGAPエラー補正する前のリードカバレッジ
つまりP4では、セル2個使って112カバレッジのリードを得、HGApでエラー補正して22xに減ったものの、22xを使ってアセンブルしたらQV57のContigが1本できた、という意味です。
 
私たちでも、20kbライブラリを作って、P4酵素で読んでいます。
結果は素晴らしいものでした。
これは日を改めて、お知らせしたいと思います。
「NGS現場の会」のネタにもしたいと思っています!!
 
 

2013年6月10日月曜日

メチル化検出の限界とチャレンジ


最近良く聞かれる質問をシェアします。
PacBioによるメチル化検出のことです。

PacBioのSMRTシークエンスと言えば、昨年から、メチル化をダイレクトに読める、という触れ込みで宣伝してきました。
本社のホームページでも、メチル化(正確にはBaseModification=塩基修飾)をBisulfite無しで検出できる!というのを、Pacならではの技術だと宣伝しています。
http://www.pacificbiosciences.com/applications/base_modification/
(余談ですが、このPacBioのページ、セキュリティの関係か、見れないこともあるようです。特に大学内から見ようとするとページが見つかりませんエラーが出ることもあります。)

論文等で良く出てくるのが、バクテリアの塩基修飾の検出です。 これはもう、ほぼ確立された技術と言っても良いでしょう。
昨年の論文になるけれども例えば、
1. Fang et al. Genome-wide mapping of methylated adenine residues in pathogenic Escherichia coli using single-molecule real-time sequencing, Nature Biotechnology (2012)
2. Schadt et al. Modeling kinetic rate variation in third generation DNA sequencing data to detect putative modifications to DNA bases, Genome Res. (2012)
3. Murray et al. The Methylomes of Six Bacteria, Nucl. Acids Res. (2012)

バクテリアのメチル化で有名(?)なのに 5-メチルシトシン、4-メチルシトシン、6-メチルアデニン、があります。
 以前、ここのブログ(Base Modification 塩基修飾 (新)で、検出のされ方について書きました。
なので、IPDとかの説明は省略しますが、上の図の右側が、IPD-Ratioのシグナチャーです。
4mCと6mAは、はっきりとピークがあることがわかりますね。
ところが5mCに関しては、「えっ、どこ?」というくらいわかりにくい。

そこで、Tet1という酵素の登場です。
Tetは5mCを化学反応で5‐カルボキシシトシンに変えてしまうのです。
5caCに変換してからPacで読んでみると、このとおり(下図の右)、IPD-ratioがはっきりとしてくる!

と、まあここまでは、バクテリアの塩基修飾検出、では良いのですが、相手が真核生物となると、新たな問題(というか挑戦)が出てくる。
「5-メチルシトシンと、5‐ハイドロキシメチルシトシンは見分けつくのか?」

今のところ、できるという保証はできません。 否、できるかもしれません。 できたらそれで一本書けるでしょうね。 (と、だんだん表現を肯定的に変更)
なぜかというと、Tetでの変換はそもそも、5mCを5hmCに変換し、その後いろいろステップがあって最終的に5caCになります。
つまり、5mCは全て、5hmCに変わってしまうので、5caCになったあとで、どれが5mC由来でどれが5hmC由来だったかわからない!

 
というわけなんですが、理論的には、5hmCをグリコシル化しTet変換から守ることで、5mCだけを5hmCと区別して検出することはできそうです。
できそう、と書いたのは、やったことが無いので、本当に出来るか自信が持てないから。
PacBioで試しているかどうかはわかりません。
もしかすると、ユーザーの誰かが挑戦しているかな? 
 
高等真核生物では、メチル化と言っても、ゲノムの色々な場所に集まって存在するケースが多いですよね。 
CpGアイランドとかインプリンティング領域とか。
そういうところでは、メチル化のIPD-Ratioのピークがマージされて、別のシグナチャーになってしまいます。 
ゲノムに比較的バラバラに存在するバクテリアの時と、同じアルゴリズムでは検出できないので、そこを今、PacBioでは時間をかけて開発しています。
 
 

2013年6月5日水曜日

アドバンストワークショップ in TOKYO

夏ですねー、この天気。
梅雨入りしたのに東京は晴天で暑い!

先日ここで宣伝させて頂いた5月24日半日セミナーは満員御礼の大反響でした!
ランチが足りなく急きょピザを注文したりして、皆さまご協力ありがとうございました。

お客様のアンケートにも、「またこういうセミナーを開いて欲しい」「今度はトランスクリプトームのテーマが良い」など、とても前向きなご意見ご感想があり、嬉しい限り。
今度はいつ企画しようかな?

イルミナさんがやっているような、ウェビナーも良いですよね。 公開OKな方がいらっしゃればそれもまた選択肢のひとつ。


ところで、今週、PacBioのユーザー様を対象にした、ワークショップを行っています。
このワークショップは、ウェットを中心とした、PacBio最新プロトコルを学んで頂くことを目的としています。
最大の見せ場?は、20kbの超ロングライブラリーを作成して読む!
あと、今までのSMRT Bellライブラリを作らない方法で、読む!

皆さま一生懸命ライブラリ作成中です。

このワークショップには、PacBio本社からアプリのトレーナーを1名呼び、トミーデジタルのアプリ担当者3名、PacBioアジアオフィスからの社員1名と、さらにさらに、ライブラリーサイズセレクションの機器「Blue Pippin」の販売元本社と日本代理店(日本ジェネティクス株式会社)から計3名が、サポートに参加しています。
ありがとうございます。

私は今回は脇役で。

データが出てくるのは金曜くらいですが、皆さん楽しみですね。

ワークショップの様子(Blue Pippinの操作を見学しているところ)

ワークショップ会場は、上野動物園の隣りの、池之端のエッジビルというところです。