2014年1月27日月曜日
遺伝子検査会社淘汰の時代が来る
今年に入って、遺伝子診断・検査関連のニュースが多く目につきます。
某芸能人の息子の父親が違ったとか、あの話題のせいかな?
いや違います。もっと大きな、時代の必然なんです。
正月明けも間もない、1月8日の読売新聞の一面は、「遺伝子ビジネス 認定制に - 悪質検査に歯止め」
経済産業省によると、国内で遺伝子検査ビジネスをする業者は、2012年現在、約740社あるらしい。
740社ですよ!
うち15以上の業者は、アメリカや中国の代理店だそうです。
想像はつくが、サービスの質は玉石混淆。中には科学的根拠の薄い結果で一般人を不安にさせて、ツボを買わせるような(笑)、そんな会社もあるんでしょうねえ。
ちょっとググればいっぱい出てきます。「遺伝子検査」をビジネスにしている会社。
特にアンジョリーナ・ジョリーの乳がんの遺伝子検査が話題になった去年、一般人にも広く、「遺伝子を調べたら病気のリスクとかがわかるらしい」という認識が広がったと思います。
でもね、このブログを見てるひとの常識は、一般人の常識とはかなりずれていると思うんです!
あ、ごめんなさい。
一般常識ではなくて、遺伝子検査に対する知識とその常識、という意味です。
試しに、DNAと遺伝子、SNP、遺伝子に起因する疾患、とは何かを、あなたの親戚や近くの文系女子/男子に説明してみて下さい。
認識がとんでもなくズレていることに気付くはず。
これは仕方ないんです。 学校で学ばないんですから。 高校でも、メンデルの実験でエンドウマメのしわがどうとかこうとかで終わりでしょ。 私の時代はそうでした。
大人になってからはさらにたちが悪く、テレビなどで「遺伝子」や「遺伝」、「DNA」という言葉が間違った意味で使われる。
曰く、創業者の遺伝子
曰く、技術立国ニッポンのDNA
曰く、アスリートの遺伝子
受け継がれるもの、社風、才能、という意味で使われることがとても多い。
マーケティング用語としてはとても良いけれど、基礎になる知識が無いところに、造語が入ってくると、本当の意味がわからないまま間違ってインプットされていまうのがとても怖い。
良い遺伝子・悪い遺伝子、なんて無いのに、多くの一般人は存在すると信じていますよ。
私たちは、GenotypeとPhenotypeの間に、何らかの関連があることはわかっています。
多くの科学者が、その関連性を研究しています。
同時に、Phenotypeによっては、Genotype+環境要因・外的要因が大きく影響することもわかっています。
私は医者ではありませんが、病気の多くは、Genotypeが関連していると思います。それは否定しません。
しかし単一遺伝子がトリガーとなる病気は乳がんなど一部を除いてそれほど多くないと思います。
また、Genotypeで発症が100%断定できるほど、単純ではありません。
そこで、確率の登場です。
平均と比べて、あなたの将来の病気のなりやすさを確率で示してくれる。
それが多くの、例えば23andMeなどの簡易遺伝子テストの結果です。
この、確率というものもまた厄介で、人によって印象が違う。
「ある病気にかかる確率が平均と比べて1.5倍高い」と言われた時、これを高いと見るか、低いと見るか。
競馬やってるひとなら「たったの1.5倍か」で、現物で株やってるひとなら「1.5倍もあるのか」、になるかもしれない(笑)。 まあ、そのひとが理系では無い、という前提でね。
遺伝子検査.comというサイトがあるんですが、ここはさらに、人間の才能も遺伝子検査でわかる!ということを謳い文句にビジネスしてます。
これを見て一般の人は、「遺伝子検査ってすごい!」って思ってしまうでしょう。
勿論あなたは全く違った印象を持つと思います。
遺伝子検査と十把一絡げに言っても、Genotypeを検査するまでのテストと、Phenotypeを予測する検査・テストは違いますね。
これは良く混合されて議論されるので、はっきり分けないといけないと思う。
親子鑑定や犯罪現場のDNA鑑定は、Genotypeの検査でほぼ100%正しい。
だから一般の人は、その他のPhenotypeの解釈も含めた遺伝子検査・テストも100%正しいと勘違いしてしまう。
今度遺伝子検査やテストのニュースがテレビに出たら、注意して見てみて下さい。
タレントのコメンテーターの話すレベルが、一般人の感覚のバロメーターです。
そう注意して見ていれば、普通の人の感覚がわかります。
今の多くの簡易検査会社は、特定の遺伝子を調べたり、SNPアレイで既知のSNPを調べています。
そこで今までGWASやらでわかっている情報を基に、疾患のなりやすさや薬の代謝のされやすさなどのPhenotypeをレポートしています。
私も2年前、23andMeの検査をしました。 多少SNPの知識があれば、それなりに面白い。
SNPの情報が随時アップデートされていて、勉強にもなりました。
でも、最近、こんなブログを見つけて、「ああやっぱりねー」という気分にもなりましたが。
まあ、740社もあれば、中には疑わしい悪質業者もいるでしょう。
今は規制が無いのでやりたい放題。 いつか事件を起こして、「遺伝子検査は嘘っぱちだ!」みたいな世論ができる可能性も十分ある。 それは怖いです。」
でも将来、遺伝子の検査は、確実に医療に貢献していくと思います。
ゲノムを解読して、個人のゲノム情報を基に、医師が治療方針を決めたりする時代は、近い将来必ず来ます。
そして、遺伝子という言葉やゲノムという言葉が、ますます一般的に使われるようになります。
ですから、国民が遺伝子の正しい知識を持つことが必須になってくるんです。
騙されないためにも!
つい最近も、ソニーがヒトゲノム解析ビジネスに参入するニュースが流れました。
2月にP5という専門会社を立ち上げるそうです。
今年はそういう大きなニュースが他からも出てくるでしょう。
ベンチャーもどんどん出てくるでしょう。
そんな中、認定制になって、悪い業者は淘汰されることを祈ります。
何といっても個人ゲノムは大きな財産・ビッグデータです。
私もシークエンサーやってますから、そういう話は良く聞きますし、時代についていくためにフォローしています。
医療、製薬、保険、IT、それぞれの業界が絡んだ大きなビジネスで、いずれ、そこからゲノム企業の巨人が登場するんじゃないか、と勝手に想像してます。
そんな小説が書けるかもしれませんね。
2014年1月20日月曜日
HiSeq X 10
軽い気持ちで読んでください。
先週、シークエンス業界の巨人、Illumina社から、こんなリリースがされました。
曰く、1000ドルゲノムついに実現!その名もHiSeq X Ten
http://www.illumina.com/systems/hiseq-x-sequencing-system.ilmn
これって、HiSeqを10台並べただけじゃ・・・・ない?
天下のIlluimnaがそんなことするわけない! って思って良く読んでみたが、どう読んでも裏があるようには思えない。
1000ドルでヒトゲノムが完全に読めるかどうかは別問題ですが、HiSeq 10台分のデータはすごいだろうな。
台数を増やす、うーん、その手があったか・・・。
真面目に新機種を開発するだけじゃあ、生き馬の目を抜くようなこの業界は生きていけないか。
それとも、超高性能新機種をドーンとリリースする前に、ライバルをこのようなジョークで安心させて、ちょっと気を抜いた時を狙って撃ち落とす、新たなマーケティング戦略か?
考えすぎか。
CLIA承認のラボでHiSeq X 10があるのは世界でもBroad Instituteと韓国とオーストラリアの3カ所だそうです(2014年1月現在:Illumina社WebSiteより)
単にHiSeqを10台持っているところは他にもありそうですが。
で、それに対抗して、今日PacBioからもこんなニュースが。
その名も RSII Eleven
総重量11トン!
床抜けるかも!!
まだPacBioシークエンサーを11台持っている研究所は世界中どこも無いです。
ですのですぐに、世界最高のPacBioシークエンスセンターになれます!
1ランでヒトゲノム20X、それも平均数キロのリード長で出力、も可能です。
勿論、こちらは冗談です。
忘れて下さいね。
さてさて、もう一つ、こちらは冗談では無いまじめな話
前にも書きましたが、トミーデジタルバイオロジー株式会社・PacBio事業部では、私たちと一緒に働いてくれる人材を募集しています(2014年1月現在)。
実験・アプリケーションサポート職と、解析・ソフトウェアサポート職、の2つです。
しかしいまいち募集してくれるひとが少ない。
時期が悪いのか、募集事項が厳しすぎたのか。
メールで、info_pac(アットまーく)digital-biology.co.jp に連絡頂ければ、募集要項をメールします。
英語力や必要スキルは、万が一足りなくても、元気と努力でカバーできる人は是非チャレンジしてみてはどうでしょう?
新卒、中途、国籍、に制限はありません。
PacBio以外にも楽しいことが多い職場ですよ。
先週、シークエンス業界の巨人、Illumina社から、こんなリリースがされました。
曰く、1000ドルゲノムついに実現!その名もHiSeq X Ten
http://www.illumina.com/systems/hiseq-x-sequencing-system.ilmn
これって、HiSeqを10台並べただけじゃ・・・・ない?
天下のIlluimnaがそんなことするわけない! って思って良く読んでみたが、どう読んでも裏があるようには思えない。
1000ドルでヒトゲノムが完全に読めるかどうかは別問題ですが、HiSeq 10台分のデータはすごいだろうな。
台数を増やす、うーん、その手があったか・・・。
真面目に新機種を開発するだけじゃあ、生き馬の目を抜くようなこの業界は生きていけないか。
それとも、超高性能新機種をドーンとリリースする前に、ライバルをこのようなジョークで安心させて、ちょっと気を抜いた時を狙って撃ち落とす、新たなマーケティング戦略か?
考えすぎか。
CLIA承認のラボでHiSeq X 10があるのは世界でもBroad Instituteと韓国とオーストラリアの3カ所だそうです(2014年1月現在:Illumina社WebSiteより)
単にHiSeqを10台持っているところは他にもありそうですが。
で、それに対抗して、今日PacBioからもこんなニュースが。
その名も RSII Eleven
総重量11トン!
床抜けるかも!!
まだPacBioシークエンサーを11台持っている研究所は世界中どこも無いです。
ですのですぐに、世界最高のPacBioシークエンスセンターになれます!
1ランでヒトゲノム20X、それも平均数キロのリード長で出力、も可能です。
勿論、こちらは冗談です。
忘れて下さいね。
さてさて、もう一つ、こちらは冗談では無いまじめな話
前にも書きましたが、トミーデジタルバイオロジー株式会社・PacBio事業部では、私たちと一緒に働いてくれる人材を募集しています(2014年1月現在)。
実験・アプリケーションサポート職と、解析・ソフトウェアサポート職、の2つです。
しかしいまいち募集してくれるひとが少ない。
時期が悪いのか、募集事項が厳しすぎたのか。
メールで、info_pac(アットまーく)digital-biology.co.jp に連絡頂ければ、募集要項をメールします。
英語力や必要スキルは、万が一足りなくても、元気と努力でカバーできる人は是非チャレンジしてみてはどうでしょう?
新卒、中途、国籍、に制限はありません。
PacBio以外にも楽しいことが多い職場ですよ。
2014年1月18日土曜日
ショウジョウバエリシークエンスとFALCON
今週はサンディエゴでPAGミーティングがありましたね。
私は日本で、PacBio本社から来日しているプロダクトマネージャーと一緒に、(願わくば)将来の顧客廻りをしてました。
PAGではどんな話がされていたのでしょうか? 盛り上がったとは聞いています。
PacBioのワークショップセミナーの様子も、間もなく公開されますのでお楽しみに!
さて、そんな中、Drosophila melanogaster (ショウジョウバエ) のシークエンスデータが公開されました。
マンチェスター大学のDr. Casey Bergman、ローレンス・バークレイ国立研究所のDr. Susan Celniker と Dr. Roger Hoskinsとの共同研究で、ショウジョウバエのISO1 (y; cn, bw, sp)株をPacBioで読んだのです。読んだ個体は成虫のオスです。
このプロジェクトは昨年夏ごろから続いていて、その経過は何度かプレゼンで詳細させて頂きました。
今回はそのあと20Kbライブラリ+サイズセレクション、新しい酵素(P5-C3)で読み足したデータは結構すごい!というお話。
平均10Kb !? 本当かよ!っていう数字ですね。 私も正直、信じられません。
確かめてみます。 少々お待ちを。
まあ、それはおいといて、
Berkeley Drosophila Genome Project (BDGP) のリファレンスゲノムは2007年にリリース5を出しているそうですが、このリファレンス配列に対して、先ず、BLASRマッピングしています。
常染色体で90~95x、X染色体で~45xのカバレッジ(サンプルはXY)
シークエンスカバレッジは、ゲノム全体にわたって、ほぼ均一、という感じです。
一部、トランスポゾンエレメントの挿入部位は、短い配列が多めにマップされてしまうそうです。
では次にアセンブルの結果
こちらはPacBioのブログに詳しいです。(http://blog.pacificbiosciences.com/2014/01/data-release-preliminary-de-novo.html)
メリーランド大学のDr. Sergei KorenとDr. Adam Philippyは、昨年末に開発したPacBioToCAの新しいバージョンを使用して、リファレンスゲノムRelease 5 よりも少ないContigを得ることに成功しました。これはすごい!
X染色体については、読んだ個体が成虫のオスだけど、リファレンスはオスメス混合の胚由来、ということが原因かもしれない、とのこと。
ちなみにこれらのデータは上記、PacBioブログからリンクがあるので、誰でもダウンロードできます。
3L染色体が1本のContigになったというのは驚きです!
"haploid assembly" と但し書きがあったのに気が付いた方、そうです、"diploid assembly"というのもPacBioでは開発中なのです。
その名も「FALCON」
ベータ版はすでに公開されてます。 ここ
前のブログでも少し紹介しましたが、Diploid Aware のアセンブリアルゴリズムです。
すごいと思いますが、どうやって確かめるのがベストなのか?
世の中に、Diploidの情報が載っているゲノムリファレンス、ってあるんでしょうか?
もちろんヒトなどではSNPsのデータベースはありますし、ハプロタイプブロックなどの情報はあることにはあるけれど、それらが本当に正しいのかをどうやって見たら良いのでしょうね。
PacBioで読んで、FALCONでアセンブリして、DiploidにContigができたとして、それをどうやって確かめるか・・・ それが問題だ。
ともあれ、FALCONはそのうちPacBioのソフトウェアにデフォルトで入れ込まれるでしょう。
私は日本で、PacBio本社から来日しているプロダクトマネージャーと一緒に、(願わくば)将来の顧客廻りをしてました。
PAGではどんな話がされていたのでしょうか? 盛り上がったとは聞いています。
PacBioのワークショップセミナーの様子も、間もなく公開されますのでお楽しみに!
さて、そんな中、Drosophila melanogaster (ショウジョウバエ) のシークエンスデータが公開されました。
マンチェスター大学のDr. Casey Bergman、ローレンス・バークレイ国立研究所のDr. Susan Celniker と Dr. Roger Hoskinsとの共同研究で、ショウジョウバエのISO1 (y; cn, bw, sp)株をPacBioで読んだのです。読んだ個体は成虫のオスです。
このプロジェクトは昨年夏ごろから続いていて、その経過は何度かプレゼンで詳細させて頂きました。
今回はそのあと20Kbライブラリ+サイズセレクション、新しい酵素(P5-C3)で読み足したデータは結構すごい!というお話。
【生データ】
- 総塩基数: 15,208,567,933 bp
- 総リード数: 1,514,730
- 平均リード長: 10,040 bp
- N50リード長: 14,214 bp
- PacBio RS II でシークエンスに要した時間: 6日
- 使用したSMRT Cells: 42
平均10Kb !? 本当かよ!っていう数字ですね。 私も正直、信じられません。
確かめてみます。 少々お待ちを。
まあ、それはおいといて、
Berkeley Drosophila Genome Project (BDGP) のリファレンスゲノムは2007年にリリース5を出しているそうですが、このリファレンス配列に対して、先ず、BLASRマッピングしています。
常染色体で90~95x、X染色体で~45xのカバレッジ(サンプルはXY)
シークエンスカバレッジは、ゲノム全体にわたって、ほぼ均一、という感じです。
一部、トランスポゾンエレメントの挿入部位は、短い配列が多めにマップされてしまうそうです。
では次にアセンブルの結果
こちらはPacBioのブログに詳しいです。(http://blog.pacificbiosciences.com/2014/01/data-release-preliminary-de-novo.html)
メリーランド大学のDr. Sergei KorenとDr. Adam Philippyは、昨年末に開発したPacBioToCAの新しいバージョンを使用して、リファレンスゲノムRelease 5 よりも少ないContigを得ることに成功しました。これはすごい!
X染色体については、読んだ個体が成虫のオスだけど、リファレンスはオスメス混合の胚由来、ということが原因かもしれない、とのこと。
ちなみにこれらのデータは上記、PacBioブログからリンクがあるので、誰でもダウンロードできます。
3L染色体が1本のContigになったというのは驚きです!
"haploid assembly" と但し書きがあったのに気が付いた方、そうです、"diploid assembly"というのもPacBioでは開発中なのです。
その名も「FALCON」
ベータ版はすでに公開されてます。 ここ
前のブログでも少し紹介しましたが、Diploid Aware のアセンブリアルゴリズムです。
すごいと思いますが、どうやって確かめるのがベストなのか?
世の中に、Diploidの情報が載っているゲノムリファレンス、ってあるんでしょうか?
もちろんヒトなどではSNPsのデータベースはありますし、ハプロタイプブロックなどの情報はあることにはあるけれど、それらが本当に正しいのかをどうやって見たら良いのでしょうね。
PacBioで読んで、FALCONでアセンブリして、DiploidにContigができたとして、それをどうやって確かめるか・・・ それが問題だ。
ともあれ、FALCONはそのうちPacBioのソフトウェアにデフォルトで入れ込まれるでしょう。
2014年1月12日日曜日
2014年 始動!
2014年、仕事初めから1週間経ちました。
遅れましたが、今年も宜しくお願いします!
いやー、寒いですねえ。
成人の日、ってなんでいつもこんなに寒いんでしょうか。
というか、こんな寒い時期に成人式をしなくても良いのに。
と思って調べたら、最初の成人式は、秋だった、そうです!
現在の埼玉県蕨市で昭和21年11月22日に実施された「青年際」がルーツで、2年後に施行された祝日法により、1月15日に「成人の日」として制定、その後成人式は全国に広まっていったとのこと。
2000年からは1月第2月曜日、になりましたが、寒い時期であることは違い無い。
と、思ったら、地方では若い人が帰省するお盆の時期に成人式をするところも多い、らしいですね。
私の頃は1月15日に成人式をしたのですが、今でも忘れられない思い出があります。
小学校時代、親友の1人だったY君が、PhenotypeがなんとXさんになっていたんです!
意味わかりますよね。
「何で振袖着てるの?」って。 でも女子からは大人気だった。
まあ、人生いろいろですから。
さて、今年の予定です。
今年は忙しくなります。 でも心は亡くさないようにします。
これまでのマーケティング活動・サポート活動が、着実に効果を出しつつあり、これからはプラス数台が予定されています。
そうなると必要なのがまず人材。
NGS現場の会のメーリングリストにも昨年末流しましたが、今(2014年1月現在)、私たちと一緒に働いてくれる、優秀な人材を募集していますので、興味がある方はこちらまでお気軽にメールください。(info_pac(アット)digital-biology.co.jp ; トミーデジタルバイオロジー株式会社・パシフィックバイオサイエンス事業部まで)
募集職種は、実験サポートと、データ解析サポートの2種。正社員。
今年のイベント予定は、アメリカ本国ですでに決まっている学会ものはこちら
1月:PAG XXII (Plant and Animal Genome Conference; San Diego)
2月:AGBT 15th (Advances in Genome Biology and Technology)
5月:American Society of Microbiology
その他、User Meetingが通常2回ほどあります。
日本及びアジアでは、今のところ学会だと
3月:第8回日本ゲノム微生物学会(東京農業大学)にてランチョン
5月:PAG Asia 2014(シンガポール)にてセミナーワークショップ
8月:第8回細菌学若手コロッセウム(北海道ニセコ)にてランチョン
11月:第37回分子生物学会(横浜)にて何か
その他、
User Meetingが5月にシンガポールで予定
同じく5月に、東京で中規模なセミナーを予定
時期は未定だが、ぼちぼちセミナーワークショップを予定
また、頼まれたら拒みませんので、日本各地でプレゼンなど
ご存じ(?)フリーシークエンスキャンペーンの皆様にも、今年のどこかで面白い発表をして頂けたら素晴らしいですね。
そういえばこの企画の詳細はまだブログでは書いていませんでした。
これは、2013年のNGS現場の会大会で発表した企画で、熱意ある若い研究者に、PacBioシークエンスを無料でして差し上げる、というものです。
セル数の制限はありますが、面白い実験提案が集まり、その中から5人に絞り、決定しました。
必要量のゲノムが用意できたかたの中には、もうシークエンスに入っているサンプルもあります。
区切りの良い段階で、途中経過を報告しますね。
ちなみにこれらのシークエンスは、生物種は違うものの、20kbライブラリ、Blue Pippinサイズセレクション、P4 またはP5ポリメラーゼ使用、180分Movie撮影、のデノボアセンブリです。
さてさてどうなるか? 期待していて下さい。
では、2014年、始動!!
2013年12月25日水曜日
PacBio診断への夢
メリー・クリスマス!
いかがお過ごしですか?
こんな深夜(2時)ですがハイテンションです!
バイオインフォやってる人には「ついに!」というニュースが飛び込んできました!
もうご存知ですって!?
http://genomeref.blogspot.jp/2013/12/announcing-grch38.html
ヒトゲノム GRCh38がついにリリースされました!
前回のバージョンが2009年だからもう5年も、大きなバージョンアップはされていなかったわけです。
さてこれで、ヒトゲノム解析やっている人たちは、マッピング用のリファレンス配列を38にするのでしょうね。
何せ5年ぶりの大改訂。1000人ゲノムのデータも参照して今までのv.37からエラーと思しき配列を除いたり、ミトコンドリアゲノム、セントロメアの予測配列なども加わり、質も向上。 らしい。
アノテーションはまだありません。UCSCやNCBIからブラウザで見れるようになるにはまだあと数週間から一月くらいかかるそうです。
解析受託サービスの会社や、ソフトウェアメーカーはきっと新年早々、大忙しになるんでしょうね。
私も前職で経験あるから、わかるー。
さて、話はガラッと変わって、シークエンサーの臨床への応用。
今年はIllumina社がMiSeq Dxという機械をアメリカでリリース。FDA承認の初のNGSとして注目を浴びました。
ボストンのアメリカ人類遺伝学会で、実機を見てきましたが、見た目は普通のMiSeqと同じ。
cystic fibrosis の診断キットを同時にリリース(これがFDA認可)したことで、アメリカではいよいよNGSが臨床の現場で使われ始めたか、という盛り上がりが感じられました。
では、PacBioが診断に使われるとしたら、どんな分野が可能か?
前から注目されていたのが、トリヌクレオチドリピートの疾患です。
Fragile X シンドローム(日本語では、脆弱X症候群)という遺伝性精神疾患があり、これは、FMR1遺伝子にあるCGGリピートの数が原因です。
健常人は、6~46リピートで、200リピートになると正常なタンパク質が作れなくなり、脳の発達に異常をきたすそうです(ウィキペディアより)。
55-200リピートだとpremutationと言われ、発症はしないけれども、保因者ということになるそうです。
最近、そのCGGリピートの中に、AGGというリピートが混じることがわかって、それがあるとその子供が発症する確率が低くなることがわかったそうです。
現在は、CGGリピート配列全体を読むことは、PacBio以外のシークエンサーではできません。
AGGが含まれているのかどうかを知ることも、他のシークエンサーではできません。
そこで、PacBioをうまく診断に使えないか、という試みがUC Davisの Paul Hagerman博士のラボで行われています。
現状の課題は、CGGリピート配列をPCR増幅無しに取ってくる技術を確立すること、です。
http://www.bio-itworld.com/2013/12/18/fragile-expedition.html
いかがお過ごしですか?
こんな深夜(2時)ですがハイテンションです!
バイオインフォやってる人には「ついに!」というニュースが飛び込んできました!
もうご存知ですって!?
http://genomeref.blogspot.jp/2013/12/announcing-grch38.html
ヒトゲノム GRCh38がついにリリースされました!
前回のバージョンが2009年だからもう5年も、大きなバージョンアップはされていなかったわけです。
さてこれで、ヒトゲノム解析やっている人たちは、マッピング用のリファレンス配列を38にするのでしょうね。
何せ5年ぶりの大改訂。1000人ゲノムのデータも参照して今までのv.37からエラーと思しき配列を除いたり、ミトコンドリアゲノム、セントロメアの予測配列なども加わり、質も向上。 らしい。
アノテーションはまだありません。UCSCやNCBIからブラウザで見れるようになるにはまだあと数週間から一月くらいかかるそうです。
解析受託サービスの会社や、ソフトウェアメーカーはきっと新年早々、大忙しになるんでしょうね。
私も前職で経験あるから、わかるー。
さて、話はガラッと変わって、シークエンサーの臨床への応用。
今年はIllumina社がMiSeq Dxという機械をアメリカでリリース。FDA承認の初のNGSとして注目を浴びました。
ボストンのアメリカ人類遺伝学会で、実機を見てきましたが、見た目は普通のMiSeqと同じ。
cystic fibrosis の診断キットを同時にリリース(これがFDA認可)したことで、アメリカではいよいよNGSが臨床の現場で使われ始めたか、という盛り上がりが感じられました。
では、PacBioが診断に使われるとしたら、どんな分野が可能か?
前から注目されていたのが、トリヌクレオチドリピートの疾患です。
Fragile X シンドローム(日本語では、脆弱X症候群)という遺伝性精神疾患があり、これは、FMR1遺伝子にあるCGGリピートの数が原因です。
健常人は、6~46リピートで、200リピートになると正常なタンパク質が作れなくなり、脳の発達に異常をきたすそうです(ウィキペディアより)。
55-200リピートだとpremutationと言われ、発症はしないけれども、保因者ということになるそうです。
最近、そのCGGリピートの中に、AGGというリピートが混じることがわかって、それがあるとその子供が発症する確率が低くなることがわかったそうです。
現在は、CGGリピート配列全体を読むことは、PacBio以外のシークエンサーではできません。
AGGが含まれているのかどうかを知ることも、他のシークエンサーではできません。
そこで、PacBioをうまく診断に使えないか、という試みがUC Davisの Paul Hagerman博士のラボで行われています。
現状の課題は、CGGリピート配列をPCR増幅無しに取ってくる技術を確立すること、です。
http://www.bio-itworld.com/2013/12/18/fragile-expedition.html
2013年12月24日火曜日
年越し前に、今年最後のアップデートの話
NGS現場の会・第3回研究会で、PacBioのリードがあと2か月で平均8.5Kbpに伸びる、と発表しました。
試薬・酵素と、Movie時間のアップデートで可能になるのです。 もうリリースしてユーザのアップデートもほぼ完了したのでこの話は年明け前にしておかないと。
先ず、試薬・酵素
PacBioの酵素はPolymeraseでP、試薬はChemistryでC、と表します。
組み合わせは、P4C2とか、P5C3とか、で略します。
といっても、少し前まで、XL酵素とXL試薬、C2酵素とC2試薬という厄介な名前のものがあり、XLC2、XLXL、C2C2と略すとどっちがどっちだ!ということも良く聞かれました。
ちなみにXLC2はXL酵素とC2試薬、XLXLはXL酵素とXL試薬、C2C2はC2酵素とC2試薬の略です。
それがややこしいというのはアメリカでもクレームがあったらしく、これからはPとCではっきり分かるようにさせたということらしい。
それはともかく、今のシークエンスに使われているのは、P4C2です。
P4は、2013年の夏ごろリリースした酵素です。
C2酵素よりも安定してロングリードを作ることができる酵素です。
P4C2で読んだとき、120分Movieでは平均リード長4500bpを出していました。
C2試薬(酵素では無い)は、ヌクレオチドと蛍光色素の距離が近く、レーザーが照射したとき、蛍光色素からのエネルギーが酵素に移動するため、それによって酵素の活性が失われやすいという欠点がありました。
そこで、ヌクレオチドと蛍光色素の間に、分子を入れて、レーザーによる励起エネルギーが酵素に届かないように改善、これがC3試薬の登場です!
左側がC2試薬と酵素X、右側がC3試薬と酵素X
Protecting Scaffoldというのが、ヌクレオチドと蛍光色素の間に新たに挿入した分子です。
これがC3
C3試薬を使うと、レーザー光によってDye(蛍光色素)が出すエネルギーが、Protective Scaffold(分子)によって遮られ、酵素には届かない、という図
こうしてC3試薬が生まれ、酵素との組み合わせ実験がR&Dにて行われました。
P4酵素とC3試薬はあまり組み合わせが良くなかったのです。
夏前からいろんな酵素を試していて、最終的に残った、一番成績の良い酵素君が、P5と名付けられました。
次にMovie時間アップデートの話
今までは120分がMovie時間のMaxでしたが、これを180分まで読めるようにしました。
Movie時間を変えるのはソフトウェアをちょっと変えれば可能なので、実は、酵素が180分たっても大丈夫、になったことの方が大きい。
120分で読んだ時の1.5倍かかるわけですから、1日何セル読めるかは、新たに計算する必要がありますね。
今までは120分Movieで8セル読むとすると、機械にセットしてからデータ転送が終わるまで20時間くらいでした。180分Movieだと、おおよそ28時間。
以下のグラフは、カタログでも登場するものです。
大腸菌ゲノムで、20Kbpライブラリを作り、Blue Pippinでサイズセレクションして、180分Movieで読んだ時の平均データです。
平均リード長5500bpのP4C2は、今まで通り、デノボアセンブリやcDNAシークエンスなどに向いています。
同8500bpのP5C3は、精度がP4C2に比べて低いので、今のところスキャフォールドへの使用を推奨しています。
私たちもそのうち、こうしたデータを公開しようと思います。
でも、ポリメラーゼリード単位のデータでは、へー、で終わってしまう。
やっぱりサブリードのグラフも欲しいし、実際アセンブリした結果も欲しい。
なので、公開するときはそういうデータも一緒に。
試薬・酵素と、Movie時間のアップデートで可能になるのです。 もうリリースしてユーザのアップデートもほぼ完了したのでこの話は年明け前にしておかないと。
先ず、試薬・酵素
PacBioの酵素はPolymeraseでP、試薬はChemistryでC、と表します。
組み合わせは、P4C2とか、P5C3とか、で略します。
といっても、少し前まで、XL酵素とXL試薬、C2酵素とC2試薬という厄介な名前のものがあり、XLC2、XLXL、C2C2と略すとどっちがどっちだ!ということも良く聞かれました。
ちなみにXLC2はXL酵素とC2試薬、XLXLはXL酵素とXL試薬、C2C2はC2酵素とC2試薬の略です。
それがややこしいというのはアメリカでもクレームがあったらしく、これからはPとCではっきり分かるようにさせたということらしい。
それはともかく、今のシークエンスに使われているのは、P4C2です。
P4は、2013年の夏ごろリリースした酵素です。
C2酵素よりも安定してロングリードを作ることができる酵素です。
P4C2で読んだとき、120分Movieでは平均リード長4500bpを出していました。
C2試薬(酵素では無い)は、ヌクレオチドと蛍光色素の距離が近く、レーザーが照射したとき、蛍光色素からのエネルギーが酵素に移動するため、それによって酵素の活性が失われやすいという欠点がありました。
そこで、ヌクレオチドと蛍光色素の間に、分子を入れて、レーザーによる励起エネルギーが酵素に届かないように改善、これがC3試薬の登場です!
左側がC2試薬と酵素X、右側がC3試薬と酵素X
Protecting Scaffoldというのが、ヌクレオチドと蛍光色素の間に新たに挿入した分子です。
これがC3
C3試薬を使うと、レーザー光によってDye(蛍光色素)が出すエネルギーが、Protective Scaffold(分子)によって遮られ、酵素には届かない、という図
こうしてC3試薬が生まれ、酵素との組み合わせ実験がR&Dにて行われました。
P4酵素とC3試薬はあまり組み合わせが良くなかったのです。
夏前からいろんな酵素を試していて、最終的に残った、一番成績の良い酵素君が、P5と名付けられました。
次にMovie時間アップデートの話
今までは120分がMovie時間のMaxでしたが、これを180分まで読めるようにしました。
Movie時間を変えるのはソフトウェアをちょっと変えれば可能なので、実は、酵素が180分たっても大丈夫、になったことの方が大きい。
120分で読んだ時の1.5倍かかるわけですから、1日何セル読めるかは、新たに計算する必要がありますね。
今までは120分Movieで8セル読むとすると、機械にセットしてからデータ転送が終わるまで20時間くらいでした。180分Movieだと、おおよそ28時間。
以下のグラフは、カタログでも登場するものです。
大腸菌ゲノムで、20Kbpライブラリを作り、Blue Pippinでサイズセレクションして、180分Movieで読んだ時の平均データです。
平均リード長5500bpのP4C2は、今まで通り、デノボアセンブリやcDNAシークエンスなどに向いています。
同8500bpのP5C3は、精度がP4C2に比べて低いので、今のところスキャフォールドへの使用を推奨しています。
私たちもそのうち、こうしたデータを公開しようと思います。
でも、ポリメラーゼリード単位のデータでは、へー、で終わってしまう。
やっぱりサブリードのグラフも欲しいし、実際アセンブリした結果も欲しい。
なので、公開するときはそういうデータも一緒に。
2013年12月22日日曜日
Moleculoのリード?
丸の内KITTE(キッテ)の中にある、クリスマスツリーです!
東京駅の丸の内南口すぐ近く、日本郵政のビルにあります。
本物の雪ではないんですけど、それらしく見えますね。
私たちは2年ほど前から大手町にオフィスを構えていたのですが、このたび引っ越ししました。
会社のオフィスの引っ越しは普通でも大変だと思うのに、年の瀬の引っ越しとは・・・。
新オフィスは文京区の根津です。前ほど広くは無いですが、働くスペースとしては十分。
大手町は、それなりに楽しい街でしたが、根津もまた、下町でいい感じ。
前職の職場が人形町だったので、それに近い雰囲気がありますね。
さて、12月は2日の週は神戸で分子生物学会がありましたね。
PacBioのセミナーは行いませんでした。分生ではNGSの発表は少なかった気がします。
そんな中でも面白かったのは、Illumina社のランチョンセミナー。
Moleculoテクロノジーの話が登場しました。
東京駅の丸の内南口すぐ近く、日本郵政のビルにあります。
本物の雪ではないんですけど、それらしく見えますね。
私たちは2年ほど前から大手町にオフィスを構えていたのですが、このたび引っ越ししました。
会社のオフィスの引っ越しは普通でも大変だと思うのに、年の瀬の引っ越しとは・・・。
新オフィスは文京区の根津です。前ほど広くは無いですが、働くスペースとしては十分。
大手町は、それなりに楽しい街でしたが、根津もまた、下町でいい感じ。
前職の職場が人形町だったので、それに近い雰囲気がありますね。
さて、12月は2日の週は神戸で分子生物学会がありましたね。
PacBioのセミナーは行いませんでした。分生ではNGSの発表は少なかった気がします。
そんな中でも面白かったのは、Illumina社のランチョンセミナー。
Moleculoテクロノジーの話が登場しました。
初めて聞くひとも多かったと思います。
その中で、Moleculoのロングリードは、平均何キロbpとか、精度がQVいくつとかの数字が出てきました。
Moleculoのテクノロジーは、それ自体は素晴らしいものだと思います。 ショートリードのシークエンサーで、ロングリードを再現させる、という発想はさすがアメリカのベンチャーです。
技術の全ては明らかにされていませんが、10Kbpにゲノムを断片化したあと、ウェルごとに数百の断片化クローン配列を増幅し、クローンごとにタグ付してから、HiSeqでシークエンスします。
そのあと、タグごとにリードを分けてアセンブリし、もとのクローン配列(10Kbpに断片化した配列)を再現するというわけです。
しかし、
誤解を恐れずに言えば、Moleculoが出すデータはContigです。
「リード長10Kbpのデータを出力できます!」 というのは、正確には「元々10Kbpに断片化した配列をMoleculoテクノロジーを使ってタグ付してショートリードで読み、タグを基準にそれぞれをアセンブルすると、10Kbp長のContigが再生できます!」
ということ。
再生されるContigは、(アセンブルのデータなので当たり前ですが)全てが10Kbpというわけでは無い。
やはり短いContigがたくさん出てきて、配列が長くなるにしたがってContig数は少なくなるという普通のアセンブリの傾向があります。
というわけで、MoleculoのContigリードと、PacBioのリアルリードを、配列単位の長さや精度で比較するのはフェアでない。
と思うのです。
しかしこれ以上書くといろいろとまあアレなので、以上。
登録:
投稿 (Atom)