2013年4月19日金曜日

HGM&ICG

PacBioユーザミーティングに引き続き、HGM&ICG に来て今日が最終日。明日の朝の飛行機で帰ります。
前にも書いたけど、シンガポール暑かった!
正直夏バテです。 
場所はあの、マリーナベイサンズ。3つのビルの屋上に船が載っていて、プールがあるところの、コンファレンスセンターです。とても綺麗で快適です。


初日は隣りで東京オートサロンをやっていました。AKB48が来たらしい。

でもこっちは行ってませんよ。

さて、HGM学会の方は、全体で500人くらいでしょうか?
大会場1つと、中会場3つで行われていましたが、ポスターは少し空きが目立ちました。

http://www.hgm2013-icg.org/highlights.html
ここの、左の方にある Download Programme book というところから、全体のプログラムPDFがダウンロードできます。
でも、今回のプログラムは見にくかった。 Abstをプリオーダーしたけれど、デザイン、編集がいまいちで、どの教室で何のテーマで話すのか、が、なかなかわからない。
そして重い! 

会場寒い! クーラー効きすぎ!
文句ばかり言ってても仕方ありませんね。
ランチョンは弁当がベジタリアン、中華、ウエスタン、モスリムから選べて良かったです。
文化のるつぼ、という感じでアメリカより国際色豊かな気がします。
でもモスリムフードは辛かった!

企業展示は全部で20社くらい。 大きな会社ばかりでした。
PacBioの真ん前がSequenome社、その前がIllumina社。
Agilent社、Affymetrix社、Fluidigm社、Qiagen社、ちょうど学会中に買収・合併で話題になったThermoFisher&LifeTech社、Roche社、PerkinElmer社、Macrogen社(韓国)、Partek社、BGI、などなど。


学会の方は、意外、というかまだまだこんなもんか、というか、PacBioをメインに使った発表は、ポスターで2つだけでした。
1つは、沖縄綜合科学研究所による、様々なシーケンサーとの比較。いまOngoingの研究と、PacBioシークエンサーの優位性を示した例。
もう一つは、Mulhouse大学(仏)による、300bpのCCSを使ってWTと大腸がんセルライン由来のAPC遺伝子アンプリコンを読んで、InDelを許さない時で、検出力を0.005%まで下げても、偽陽性は0.00001以下であったことを示した例。

Mulhouse大学の例は、CCSのパスが、あまり多くても(12までがベスト)精度は良くないという結果が出たのですが、これがなぜかはわかりません。
CCSを病気のスクリーニングに用いるためには、最初に何パスのCCSが偽陽性と検出力の観点から考えてベストなのか、定める必要がありそうだなと思いました。

シンガポールの参加者と話していると、PacBioはアジアではまだ情報が不足していると実感しました。 私もたまにブースやポスター会場で、Pacの宣伝をしていたのですよ(in English だよ!)。
「データの特徴やツールについて、初めて知った」と、喜ばれました。
中国語でブログ書くひと出てこないかな?


シンガポールは楽しいところでした。 夜景が綺麗。 レストランやバーはいいところがたくさん。
そして全部英語通じる。(China Townは中国語Only、のときもあった)
街の端から端まで(頑張れば)歩いていけるくらいの大きさもいい。
また行きたいです。 9日間もいればだいぶ慣れました。 





2013年4月14日日曜日

第一回アジアユーザーミーティング in シンガポール


2013年4月12日、シンガポールのセントーサ島、Movenpickホテルにて、第一回PacBioアジアユーザーミーティングが行われました。
日本、韓国、台湾、中国、マレーシア、オーストラリア、(抜けてるところあるかな?)のユーザーと代理店、アメリカからはJoint Genome Institute、BioSoft Integrator(ITベンダー)、そしてPacBio本社から数人とPacBioシンガポールオフィスのみんなが参加して、楽しいひと時を過ごしました。
各ユーザーの発表はもちろんConfidentialですので書けませんが、朝9時から夕方のバーベキューまで、皆さんとても楽しいひと時を過ごせたのではないでしょうか。
次回はもっとユーザーが増えて、発表も多くなり、きっと盛り上がるでしょう。 場所はバリ島なんかがいいかな、と、Pac副社長に言っておきました! 
そして、PacBioからのNews:
社内的には何ヶ月も準備してきたことですが、今回、公式にリリースされた情報があります。
それが、
PacBio RS II
何が違うの?
http://investor.pacificbiosciences.com/releasedetail.cfm?ReleaseID=755828
上のリンクにある写真をよーく見てください。
ほとんど今までと同じですね。でも中身に大ーきな違いがあるんです。
1つのSMRT Cellは150,000のZMWがあり、今まで一度に75,000のZMWを読むのが限界でした。 理由は、蛍光検出に使用するレーザーのスプレッドされる数がそれくらいだったからです。ここを2倍にして、一度に150,000のZMWを検出できるようにしたのが今回のバージョンアップです。

120分Movieのリード出力が、単純に今までの2倍になります。 今までは75000のZMWを読んで、残りの75000は捨ててましたからねえ。
55分でCCSを作るときも同じ。今までは55分で75000、次の55分で残りの75000を読んでいた。
Movie時間は55分だけれどもセル一個分のデータを出すのに110分Movie時間がかかっていたのです。
それが今度は55分ですむので、時間短縮になります。セル8個、16個、となるとかなりの時間短縮になります。
(ベースコールの時間は含まれていません)

ユーザーミーティングにいると、いろいろなアイデアが聞けていいですね。 
「こんな使い方があるのかー」「OOさんがやってることと全く同じだ」
と思った方も多いはず。
言えるのは、既に発表されたツールやアセンブラーは、みんな一度は使っているということ。
まだまだPacのデータをいじれるツールは不足しているということです。
今なら、バイオインフォマティシャンにとって、PacBioデータは最高に楽しい材料だと思いますよ。
見たことないものをいじるのが好きなひとにとっては。

Movenpickホテルは良いところでした。
プライベートで泊まるにはちょっと高いかな。
しかし、シンガポールは暑い!!



2013年4月5日金曜日

BioTechniques の記事から

春ですね。
新学期開始かな? 早稲田大学の近くを通ったら、サークル勧誘のブースが見えました。
地下鉄にも、社会人一年生らしきスーツ姿がちらほら。
 
今日はBioTechniques の記事Going to Great Read Lengthsを紹介します。
原文はこちら

 

NGSの登場は、シークエンスのコストを格段に下げました。 
1000ドルゲノムも夢ではない! と言われてから数年、それが現実にならないのは、NGSが、コストと引き換えにリード長を犠牲にしているからです。
(ヒトゲノム3Gと同じ量の塩基を仮に数千ドルで出せても、情報量ではサンガーで数十億ドルかけて読んだ20年前に負けるのです。 と言うと言い過ぎかな?)

アカゲザルのゲノム、はNGSで読まれたそうですが、ゲノム全体の20%もギャップがあるそうです。
リード長が数百bpではそれ以上のリピートは読めない。 
実際にアカゲザルゲノムではそれだけたくさんのリピート、ショートでは読めない領域があるということでしょうか。

自然の流れで、長い配列を読む必然性が出てくるのですが、こちらもいくつか方法が分かれます。
DNAをそのまま、連続して長く読むPacBioのような方法。
DNAを長いまま別々に維持し、その長いDNAをショートで読むけれども後でどのDNA由来だったのかをわかるようにしておいて、アセンブルすることで元の長いDNAを再現する、Moleculoのような方法。
いずれも、長く読むニーズがあるからこそ、注目されているのでしょう。


さて、この記事で2つのツールが紹介されています。
1つは、ショートリードで読んで作ったContig、SuperContigの中のギャップを、PacBioのロングリードでクローズする、PB-Jellyというツール
もう一つは、東大の浜田先生らによる、PacBioデータのシュミレーションツール、PBSIM
浜田先生とは何度か会って話す機会がありましたが、PacBioの精度は世間で思われているより悪くない、そうです。 私が言うより説得力があると思います。

PB‐Jellyは、私もギャップクローズに用いています。 
大型ゲノムのScaffoldの、ギャップクローズ用のツールとしては、今はこれが一番良いような気がします。
PacBioの二次解析ソフトウェアの一部、BLASRとAlloraを使います。  
ちょっとそれなりに時間がかかるかなあ、という感じ。
論文ではサルやセキセイインコ(1.3Gb)レベルのゲノムに挑戦していました。


PB‐Jelly
English, A.C., S. Richards, Y. Han, M. Wang, V. Vee, J. Qu, X. Qin, D.M. Muzny, J.G. Reid, K.C. Worley, and R.A. Gibbs. 2012. Mind the gap: upgrading genomes with Pacific Biosciences RS long-read sequencing technology. PLoS One 7(11):e47768. doi: 10.1371/journal.pone.0047768.

PBSIM
Ono, Y., K. Asai, and M. Hamada. 2013. PBSIM: PacBio reads simulator--toward accurate genome assembly. Bioinformatics 29(1):119-21. doi: 10.1093/bioinformatics/bts649.

2013年4月4日木曜日

デノボトランスクリプトームにもどうぞ

企業が主催するウェビナーは好きです。
ライフサイエンス系のウェビナーは、時間が許す限り、見ようと思います。
IT系だと昔から結構普通にありましたが、最近2、3年は、バイオ系の会社も講師を呼んでセミナーをして、それをネットで生放送するのが流行りになりつつあります。

企業のウェビナーと言えば、今日(もう昨日かな)、4月3日に参加したのが、イルミナ社のウェビナー。 時間も夕方だったので、オフィスの何人かと見てました。
最近注目しています。 内容も面白い。 本音で語る演者をうまく厳選している感じです。
やるな。

あまり褒めると立場上アレなのでコレくらいにして。

今日のお話は、基礎生物学研究所 生物機能解析センターの、重信 秀治先生による、「非モデル生物のRNA-seq解析 -- 実験デザインから解析パイプラインまで」 でした。

見逃した方も、イルミナ社のサイトから録画を閲覧できます。 ここから

今日はデノボトランスクリプトームがテーマで、これは私もとても興味のある分野です。

重信先生は、リファレンスの無い生物のRNA-Seqをしてアセンブルするツールに、Trinityを勧めていました。 
Trinityは昔は結構メモリを食うツールで、困った経験があります(2011年7月22日の書き込み参照)。でも今は大分使いやすくなったそうです。良かった。
ペアエンドのイルミナHiSeqを使っていました。 例にあげられた生物種がちょっと気持ち悪(ワモンゴキブリ)かったですが、内容はとてもためになりました。
出来ればスライドの右上に登場するゴキブリの写真を、せめて可愛いイラストに変えて欲しかった。
ゴキブリ、苦手です。

非モデル生物のRNA-Seqは、目的が2つに分かれ、それぞれに実験計画が異なる、との言葉には大賛成です。
Isoformや新規の遺伝子を見つける目的には、できるだけ異なる環境や形質(卵、幼虫、蛹、成虫など)からまんべんなくたくさんのcDNAを読む。
発現量や発現比測定の目的には、統計計算できる生物学的リプリケートを用意して読む。
(個人的には、前者、新規遺伝子発見の方に興味があります。)

デノボで遺伝子候補を見つけた後に、ORF検索したり、BLASTxしたり、と、いわゆるアノテーションという作業が続くのです。 重信先生はさらっと言っておりましたが、結構大変な作業ですよ。
私もやってましたから。

それはそうと、重信先生、今後PacBioにも期待していると仰って下さいました!
多謝!

PacBioは、平均的cDNAなら全長読むことができます。
Trinityでアセンブルした結果のContigが、本当に遺伝子を反映しているのか、白黒付きます。

まだ、私もcDNAをPacで読んでの解析は、経験が浅いですが、「全長が読めている!」というのは最初感動しました。
GMAPでゲノムにマッピングして(おっと、ここでデノボでは無いのがバレてしまいました。実は非モデル生物でのcDNAサンプルはまだ手に入っていないので、モデル生物でしかやったことが無いのが現状)、IGVやUCSCブラウザで見たときに、これが一本のリードから取れた配列なのか、としばし見入ってしまいました。

モデル生物でも非モデル生物でも、全長cDNAがバッチリ読める、そんな感動を味わいたい方、PacBioいかがですか?

2013年4月1日月曜日

リピートの秘密


PacBioの紹介プレゼンで良く登場する(させている?)のが、fragile X mental retardation 1 (FMR1)脆弱X症候群関連遺伝子の、CGGリピートを読んだ例。
この遺伝子は、5’-UTR領域にCGGリピートがあるのですが、これが55リピート未満なら正常、55以上ならその数によって、例えば200-1000リピートになると、その部分がメチル化されて正常なmRNAが転写されず、結果として運動失調や自閉症などの疾患を引き起こすそうです。OMIM Number: 309550

CGGCGGCGGCGG....と、CGGの3塩基単位がずーっと続くような配列、通称3塩基リピート(Trinucleotide repeat: TNR)と言います。
50リピートだと150塩基、普通のNGSシークエンスでもいけそうです。
200リピートだと600塩基、ショートリードでは無理ですね。
500リピートだと1500塩基、そろそろサンガーでもきつい。
750リピートだと2250塩基、これはもう無理。

で、PacBioの出番となったわけです。

ケーススタディのダウンロードはここから

昨年サンフランシスコでの人類遺伝学会でもHagerman氏の講演がありました。
また論文も出ましたね。(Loomis et al., Sequencing the unsequenceable: Expanded CGG-repeat alleles of the fragile X gene (2012) Genome Research. リンク )
リピートを読むのはチャレンジングですが、PacBioなら、何とか読める気がします。
勿論、解析はオートメーションではできませんから、その意味でも「チャレンジング」です。

リピートといえば、3塩基リピートだけでも色んな種類があるのですね。
ちょっとググったらわかったのですが、ヒトゲノムにある3塩基リピートでも
AAT, AAC, AAG, AGG, ATC, ACC, CAG, CGG, ACT, GAC などがあるそうです。

Kslowski et al., Trinucleotide repeats in human genome and exome. (2010) Nucleic Acids Research. リンク 
この論文で面白かったのは、リピートは種類によって、ゲノムに多いもの、Exomeに多いもの、それぞれ差があるということ。 
ここでリピートの定義は、3塩基が6回以上連続する配列、ゲノムはhg18、ExonはRefSeqを基準にしたそうです。
そうすると、ゲノムに対してExomeで良く出現するリピート上位3位は、CGG、CAG、AGG
逆にAAT、AAC、AAGなどはゲノムに多く出現するそうな。

でも、これはリファレンスゲノムを見て、の話しなんですよね。
hg18は、確かほとんどがサンガーシークエンスで読んでまとめられたゲノム配列だから、サンガーで読めなかった場所は、当然カウントされていない。
とすると、もし、将来(近い将来)、ロングリードで今まで読めなかったリピート領域を読んでリファレンスゲノムが作り替えられたら、上記のグラフは大きく変わるでしょうねえ。

そんなことを考えながら、リピートリピートと、テーマを探す最近です。