2013年12月25日水曜日

PacBio診断への夢

メリー・クリスマス!

いかがお過ごしですか?
こんな深夜(2時)ですがハイテンションです!
バイオインフォやってる人には「ついに!」というニュースが飛び込んできました!
もうご存知ですって!?
http://genomeref.blogspot.jp/2013/12/announcing-grch38.html

ヒトゲノム GRCh38がついにリリースされました!
前回のバージョンが2009年だからもう5年も、大きなバージョンアップはされていなかったわけです。

さてこれで、ヒトゲノム解析やっている人たちは、マッピング用のリファレンス配列を38にするのでしょうね。
何せ5年ぶりの大改訂。1000人ゲノムのデータも参照して今までのv.37からエラーと思しき配列を除いたり、ミトコンドリアゲノム、セントロメアの予測配列なども加わり、質も向上。 らしい。

アノテーションはまだありません。UCSCやNCBIからブラウザで見れるようになるにはまだあと数週間から一月くらいかかるそうです。
解析受託サービスの会社や、ソフトウェアメーカーはきっと新年早々、大忙しになるんでしょうね。
私も前職で経験あるから、わかるー。



さて、話はガラッと変わって、シークエンサーの臨床への応用。
今年はIllumina社がMiSeq Dxという機械をアメリカでリリース。FDA承認の初のNGSとして注目を浴びました。
ボストンのアメリカ人類遺伝学会で、実機を見てきましたが、見た目は普通のMiSeqと同じ。
cystic fibrosis の診断キットを同時にリリース(これがFDA認可)したことで、アメリカではいよいよNGSが臨床の現場で使われ始めたか、という盛り上がりが感じられました。


では、PacBioが診断に使われるとしたら、どんな分野が可能か?
前から注目されていたのが、トリヌクレオチドリピートの疾患です。

Fragile X シンドローム(日本語では、脆弱X症候群)という遺伝性精神疾患があり、これは、FMR1遺伝子にあるCGGリピートの数が原因です。
健常人は、6~46リピートで、200リピートになると正常なタンパク質が作れなくなり、脳の発達に異常をきたすそうです(ウィキペディアより)。

55-200リピートだとpremutationと言われ、発症はしないけれども、保因者ということになるそうです。
最近、そのCGGリピートの中に、AGGというリピートが混じることがわかって、それがあるとその子供が発症する確率が低くなることがわかったそうです。

現在は、CGGリピート配列全体を読むことは、PacBio以外のシークエンサーではできません。
AGGが含まれているのかどうかを知ることも、他のシークエンサーではできません。
そこで、PacBioをうまく診断に使えないか、という試みがUC Davisの Paul Hagerman博士のラボで行われています。
現状の課題は、CGGリピート配列をPCR増幅無しに取ってくる技術を確立すること、です。
http://www.bio-itworld.com/2013/12/18/fragile-expedition.html



2013年12月24日火曜日

年越し前に、今年最後のアップデートの話

NGS現場の会・第3回研究会で、PacBioのリードがあと2か月で平均8.5Kbpに伸びる、と発表しました。
試薬・酵素と、Movie時間のアップデートで可能になるのです。 もうリリースしてユーザのアップデートもほぼ完了したのでこの話は年明け前にしておかないと。

先ず、試薬・酵素

PacBioの酵素はPolymeraseでP、試薬はChemistryでC、と表します。
組み合わせは、P4C2とか、P5C3とか、で略します。

といっても、少し前まで、XL酵素とXL試薬、C2酵素とC2試薬という厄介な名前のものがあり、XLC2、XLXL、C2C2と略すとどっちがどっちだ!ということも良く聞かれました。
ちなみにXLC2はXL酵素とC2試薬、XLXLはXL酵素とXL試薬、C2C2はC2酵素とC2試薬の略です。
それがややこしいというのはアメリカでもクレームがあったらしく、これからはPとCではっきり分かるようにさせたということらしい。

それはともかく、今のシークエンスに使われているのは、P4C2です。
P4は、2013年の夏ごろリリースした酵素です。
C2酵素よりも安定してロングリードを作ることができる酵素です。
P4C2で読んだとき、120分Movieでは平均リード長4500bpを出していました。

C2試薬(酵素では無い)は、ヌクレオチドと蛍光色素の距離が近く、レーザーが照射したとき、蛍光色素からのエネルギーが酵素に移動するため、それによって酵素の活性が失われやすいという欠点がありました。
そこで、ヌクレオチドと蛍光色素の間に、分子を入れて、レーザーによる励起エネルギーが酵素に届かないように改善、これがC3試薬の登場です!
左側がC2試薬と酵素X、右側がC3試薬と酵素X
Protecting Scaffoldというのが、ヌクレオチドと蛍光色素の間に新たに挿入した分子です。
これがC3


C3試薬を使うと、レーザー光によってDye(蛍光色素)が出すエネルギーが、Protective Scaffold(分子)によって遮られ、酵素には届かない、という図

こうしてC3試薬が生まれ、酵素との組み合わせ実験がR&Dにて行われました。
P4酵素とC3試薬はあまり組み合わせが良くなかったのです。
夏前からいろんな酵素を試していて、最終的に残った、一番成績の良い酵素君が、P5と名付けられました。


次にMovie時間アップデートの話

今までは120分がMovie時間のMaxでしたが、これを180分まで読めるようにしました。
Movie時間を変えるのはソフトウェアをちょっと変えれば可能なので、実は、酵素が180分たっても大丈夫、になったことの方が大きい。
120分で読んだ時の1.5倍かかるわけですから、1日何セル読めるかは、新たに計算する必要がありますね。
今までは120分Movieで8セル読むとすると、機械にセットしてからデータ転送が終わるまで20時間くらいでした。180分Movieだと、おおよそ28時間。


以下のグラフは、カタログでも登場するものです。 
大腸菌ゲノムで、20Kbpライブラリを作り、Blue Pippinでサイズセレクションして、180分Movieで読んだ時の平均データです。



平均リード長5500bpのP4C2は、今まで通り、デノボアセンブリやcDNAシークエンスなどに向いています。
同8500bpのP5C3は、精度がP4C2に比べて低いので、今のところスキャフォールドへの使用を推奨しています。

私たちもそのうち、こうしたデータを公開しようと思います。
でも、ポリメラーゼリード単位のデータでは、へー、で終わってしまう。
やっぱりサブリードのグラフも欲しいし、実際アセンブリした結果も欲しい。
なので、公開するときはそういうデータも一緒に。


2013年12月22日日曜日

Moleculoのリード?

丸の内KITTE(キッテ)の中にある、クリスマスツリーです! 
東京駅の丸の内南口すぐ近く、日本郵政のビルにあります。
本物の雪ではないんですけど、それらしく見えますね。

私たちは2年ほど前から大手町にオフィスを構えていたのですが、このたび引っ越ししました。
会社のオフィスの引っ越しは普通でも大変だと思うのに、年の瀬の引っ越しとは・・・。

新オフィスは文京区の根津です。前ほど広くは無いですが、働くスペースとしては十分。
大手町は、それなりに楽しい街でしたが、根津もまた、下町でいい感じ。
前職の職場が人形町だったので、それに近い雰囲気がありますね。




さて、12月は2日の週は神戸で分子生物学会がありましたね。
PacBioのセミナーは行いませんでした。分生ではNGSの発表は少なかった気がします。
そんな中でも面白かったのは、Illumina社のランチョンセミナー。
Moleculoテクロノジーの話が登場しました。
初めて聞くひとも多かったと思います。
その中で、Moleculoのロングリードは、平均何キロbpとか、精度がQVいくつとかの数字が出てきました。

Moleculoのテクノロジーは、それ自体は素晴らしいものだと思います。 ショートリードのシークエンサーで、ロングリードを再現させる、という発想はさすがアメリカのベンチャーです。
技術の全ては明らかにされていませんが、10Kbpにゲノムを断片化したあと、ウェルごとに数百の断片化クローン配列を増幅し、クローンごとにタグ付してから、HiSeqでシークエンスします。
そのあと、タグごとにリードを分けてアセンブリし、もとのクローン配列(10Kbpに断片化した配列)を再現するというわけです。

しかし、

誤解を恐れずに言えば、Moleculoが出すデータはContigです。
「リード長10Kbpのデータを出力できます!」 というのは、正確には「元々10Kbpに断片化した配列をMoleculoテクノロジーを使ってタグ付してショートリードで読み、タグを基準にそれぞれをアセンブルすると、10Kbp長のContigが再生できます!」
ということ。
再生されるContigは、(アセンブルのデータなので当たり前ですが)全てが10Kbpというわけでは無い。
やはり短いContigがたくさん出てきて、配列が長くなるにしたがってContig数は少なくなるという普通のアセンブリの傾向があります。

というわけで、MoleculoのContigリードと、PacBioのリアルリードを、配列単位の長さや精度で比較するのはフェアでない。
と思うのです。

しかしこれ以上書くといろいろとまあアレなので、以上。