2014年1月29日水曜日

SMRT Portal

PacBioのデータ解析ソフトに、SMRT Analysis というものがあります。
コマンドラインツール、ウェブベースのGUIツール、が含まれているパッケージソフトで、何と無償です。
PacBioのユーザー以外でも誰でもここからダウンロードして使えます。
左下のsmrtanalysisというところから、お使いのOSバージョンを確認して落とします。

サーバの必要スペックが結構高くて、基本はクラスターサーバです。
SGEなどのジョブエンジンが動いている必要があります。 
ちなみにSGEは有償/無償のものがありますが、どちらでも動きます。

基本クラスターサーバと言ったのは、動かすだけなら、時間かかっても良いなら、マルチコアでメモリーたくさん積んだシングルノードのサーバでも十分だから。
でも、PacBioはお勧めしてません。

データ量が年々倍々に増えていくので、必要最低スペックでサーバを購入してしまうと、後で増設しないといけない。
当たり前かもしれませんが、私も実感しています。

ウェブGUIベースのSMRT Portal の使い方を説明した、いーいビデオがあります。
こちら


バージョンはちょっと前だけど、アセンブラ(HGAp)とBaseMod(塩基修飾)のやり方が、紹介されています。
クリック、クリックで簡単操作~!

基本の画面は、2年間あまり変わっていません。
およそ4半期ごとに行われるバージョンアップで、解析機能メニューが増えたり、減ったりはします。
次のバージョンアップでは、以下の機能追加を予定しています!

  1. cDNAの解析: アイソフォームごとにサブリードをクラスタリングして、ゲノムにマッピング
  2. ロングアンプリコン: キメラ配列がある場合のフィルタリング機能追加
  3. マイナーアレル変異検出: CCSで1%程度のマイナー変異を検出
これは予定ですよ。
確定ではありませんので。

しかしこれらの解析は、実験系も同時にアップデートしないといけない。
完全cDNAのシークエンスは、今後、Iso-Seqと呼びます。
Isoform Sequenceの略です。 これについてはまた別の機会に書きます。


SMRT Analysis、インストールやアップデートは、結構ハードルがあったり面倒くさかったりするんですが、解析機能そのものは私は好きです。
余分な機能が付いていない、シンプルなところが好きなのかもしれない。
GUIはデザインも良いと思いますね。

2014年1月27日月曜日

遺伝子検査会社淘汰の時代が来る


今年に入って、遺伝子診断・検査関連のニュースが多く目につきます。
某芸能人の息子の父親が違ったとか、あの話題のせいかな?
いや違います。もっと大きな、時代の必然なんです。
 

正月明けも間もない、1月8日の読売新聞の一面は、「遺伝子ビジネス 認定制に - 悪質検査に歯止め
経済産業省によると、国内で遺伝子検査ビジネスをする業者は、2012年現在、約740社あるらしい。
740社ですよ!
うち15以上の業者は、アメリカや中国の代理店だそうです。

想像はつくが、サービスの質は玉石混淆。中には科学的根拠の薄い結果で一般人を不安にさせて、ツボを買わせるような(笑)、そんな会社もあるんでしょうねえ。

ちょっとググればいっぱい出てきます。「遺伝子検査」をビジネスにしている会社。
特にアンジョリーナ・ジョリーの乳がんの遺伝子検査が話題になった去年、一般人にも広く、「遺伝子を調べたら病気のリスクとかがわかるらしい」という認識が広がったと思います。


でもね、このブログを見てるひとの常識は、一般人の常識とはかなりずれていると思うんです!


あ、ごめんなさい。
一般常識ではなくて、遺伝子検査に対する知識とその常識、という意味です。

試しに、DNAと遺伝子、SNP、遺伝子に起因する疾患、とは何かを、あなたの親戚や近くの文系女子/男子に説明してみて下さい。
認識がとんでもなくズレていることに気付くはず。

これは仕方ないんです。 学校で学ばないんですから。 高校でも、メンデルの実験でエンドウマメのしわがどうとかこうとかで終わりでしょ。 私の時代はそうでした。

大人になってからはさらにたちが悪く、テレビなどで「遺伝子」や「遺伝」、「DNA」という言葉が間違った意味で使われる。
曰く、創業者の遺伝子
曰く、技術立国ニッポンのDNA
曰く、アスリートの遺伝子

受け継がれるもの、社風、才能、という意味で使われることがとても多い。
マーケティング用語としてはとても良いけれど、基礎になる知識が無いところに、造語が入ってくると、本当の意味がわからないまま間違ってインプットされていまうのがとても怖い。

良い遺伝子・悪い遺伝子、なんて無いのに、多くの一般人は存在すると信じていますよ。


私たちは、GenotypeとPhenotypeの間に、何らかの関連があることはわかっています。
多くの科学者が、その関連性を研究しています。
同時に、Phenotypeによっては、Genotype+環境要因・外的要因が大きく影響することもわかっています。
私は医者ではありませんが、病気の多くは、Genotypeが関連していると思います。それは否定しません。
しかし単一遺伝子がトリガーとなる病気は乳がんなど一部を除いてそれほど多くないと思います。
また、Genotypeで発症が100%断定できるほど、単純ではありません。
そこで、確率の登場です。

平均と比べて、あなたの将来の病気のなりやすさを確率で示してくれる。
それが多くの、例えば23andMeなどの簡易遺伝子テストの結果です。

この、確率というものもまた厄介で、人によって印象が違う。
「ある病気にかかる確率が平均と比べて1.5倍高い」と言われた時、これを高いと見るか、低いと見るか。
競馬やってるひとなら「たったの1.5倍か」で、現物で株やってるひとなら「1.5倍もあるのか」、になるかもしれない(笑)。 まあ、そのひとが理系では無い、という前提でね。

遺伝子検査.comというサイトがあるんですが、ここはさらに、人間の才能も遺伝子検査でわかる!ということを謳い文句にビジネスしてます。
これを見て一般の人は、「遺伝子検査ってすごい!」って思ってしまうでしょう。
勿論あなたは全く違った印象を持つと思います。


遺伝子検査と十把一絡げに言っても、Genotypeを検査するまでのテストと、Phenotypeを予測する検査・テストは違いますね。
これは良く混合されて議論されるので、はっきり分けないといけないと思う。
親子鑑定や犯罪現場のDNA鑑定は、Genotypeの検査でほぼ100%正しい。 
だから一般の人は、その他のPhenotypeの解釈も含めた遺伝子検査・テストも100%正しいと勘違いしてしまう。
今度遺伝子検査やテストのニュースがテレビに出たら、注意して見てみて下さい。
タレントのコメンテーターの話すレベルが、一般人の感覚のバロメーターです。
そう注意して見ていれば、普通の人の感覚がわかります。

今の多くの簡易検査会社は、特定の遺伝子を調べたり、SNPアレイで既知のSNPを調べています。
そこで今までGWASやらでわかっている情報を基に、疾患のなりやすさや薬の代謝のされやすさなどのPhenotypeをレポートしています。
私も2年前、23andMeの検査をしました。 多少SNPの知識があれば、それなりに面白い。 
SNPの情報が随時アップデートされていて、勉強にもなりました。
でも、最近、こんなブログを見つけて、「ああやっぱりねー」という気分にもなりましたが。

まあ、740社もあれば、中には疑わしい悪質業者もいるでしょう。
今は規制が無いのでやりたい放題。 いつか事件を起こして、「遺伝子検査は嘘っぱちだ!」みたいな世論ができる可能性も十分ある。 それは怖いです。」

でも将来、遺伝子の検査は、確実に医療に貢献していくと思います。

ゲノムを解読して、個人のゲノム情報を基に、医師が治療方針を決めたりする時代は、近い将来必ず来ます。
そして、遺伝子という言葉やゲノムという言葉が、ますます一般的に使われるようになります。
ですから、国民が遺伝子の正しい知識を持つことが必須になってくるんです。
騙されないためにも!

つい最近も、ソニーがヒトゲノム解析ビジネスに参入するニュースが流れました。
2月にP5という専門会社を立ち上げるそうです。
今年はそういう大きなニュースが他からも出てくるでしょう。
ベンチャーもどんどん出てくるでしょう。
そんな中、認定制になって、悪い業者は淘汰されることを祈ります。

何といっても個人ゲノムは大きな財産・ビッグデータです。

私もシークエンサーやってますから、そういう話は良く聞きますし、時代についていくためにフォローしています。
医療、製薬、保険、IT、それぞれの業界が絡んだ大きなビジネスで、いずれ、そこからゲノム企業の巨人が登場するんじゃないか、と勝手に想像してます。
そんな小説が書けるかもしれませんね。

2014年1月20日月曜日

HiSeq X 10

軽い気持ちで読んでください。

先週、シークエンス業界の巨人、Illumina社から、こんなリリースがされました。
曰く、1000ドルゲノムついに実現!その名もHiSeq X Ten
http://www.illumina.com/systems/hiseq-x-sequencing-system.ilmn

これって、HiSeqを10台並べただけじゃ・・・・ない?
天下のIlluimnaがそんなことするわけない! って思って良く読んでみたが、どう読んでも裏があるようには思えない。
1000ドルでヒトゲノムが完全に読めるかどうかは別問題ですが、HiSeq 10台分のデータはすごいだろうな。


台数を増やす、うーん、その手があったか・・・。
真面目に新機種を開発するだけじゃあ、生き馬の目を抜くようなこの業界は生きていけないか。
それとも、超高性能新機種をドーンとリリースする前に、ライバルをこのようなジョークで安心させて、ちょっと気を抜いた時を狙って撃ち落とす、新たなマーケティング戦略か?

考えすぎか。
CLIA承認のラボでHiSeq X 10があるのは世界でもBroad Instituteと韓国とオーストラリアの3カ所だそうです(2014年1月現在:Illumina社WebSiteより)
単にHiSeqを10台持っているところは他にもありそうですが。


で、それに対抗して、今日PacBioからもこんなニュースが。
その名も RSII Eleven
総重量11トン!
床抜けるかも!!

まだPacBioシークエンサーを11台持っている研究所は世界中どこも無いです。
ですのですぐに、世界最高のPacBioシークエンスセンターになれます!
1ランでヒトゲノム20X、それも平均数キロのリード長で出力、も可能です。
勿論、こちらは冗談です。
忘れて下さいね。



さてさて、もう一つ、こちらは冗談では無いまじめな話

前にも書きましたが、トミーデジタルバイオロジー株式会社・PacBio事業部では、私たちと一緒に働いてくれる人材を募集しています(2014年1月現在)。
実験・アプリケーションサポート職と、解析・ソフトウェアサポート職、の2つです。
しかしいまいち募集してくれるひとが少ない。
時期が悪いのか、募集事項が厳しすぎたのか。

メールで、info_pac(アットまーく)digital-biology.co.jp に連絡頂ければ、募集要項をメールします。

英語力や必要スキルは、万が一足りなくても、元気と努力でカバーできる人は是非チャレンジしてみてはどうでしょう?
新卒、中途、国籍、に制限はありません。
PacBio以外にも楽しいことが多い職場ですよ。



2014年1月18日土曜日

ショウジョウバエリシークエンスとFALCON

今週はサンディエゴでPAGミーティングがありましたね。
私は日本で、PacBio本社から来日しているプロダクトマネージャーと一緒に、(願わくば)将来の顧客廻りをしてました。
PAGではどんな話がされていたのでしょうか? 盛り上がったとは聞いています。
PacBioのワークショップセミナーの様子も、間もなく公開されますのでお楽しみに!

さて、そんな中、Drosophila melanogaster (ショウジョウバエ) のシークエンスデータが公開されました。
マンチェスター大学のDr. Casey Bergman、ローレンス・バークレイ国立研究所のDr. Susan Celniker と Dr. Roger Hoskinsとの共同研究で、ショウジョウバエのISO1 (y; cn, bw, sp)株をPacBioで読んだのです。読んだ個体は成虫のオスです。
このプロジェクトは昨年夏ごろから続いていて、その経過は何度かプレゼンで詳細させて頂きました。
今回はそのあと20Kbライブラリ+サイズセレクション、新しい酵素(P5-C3)で読み足したデータは結構すごい!というお話。


【生データ】

  • 総塩基数: 15,208,567,933 bp
  • 総リード数: 1,514,730
  • 平均リード長: 10,040 bp
  • N50リード長:  14,214 bp
  • PacBio RS II でシークエンスに要した時間: 6日
  • 使用したSMRT Cells: 42

平均10Kb !? 本当かよ!っていう数字ですね。 私も正直、信じられません。 
確かめてみます。 少々お待ちを。

まあ、それはおいといて、

Berkeley Drosophila Genome Project (BDGP) のリファレンスゲノムは2007年にリリース5を出しているそうですが、このリファレンス配列に対して、先ず、BLASRマッピングしています。
常染色体で90~95x、X染色体で~45xのカバレッジ(サンプルはXY)

シークエンスカバレッジは、ゲノム全体にわたって、ほぼ均一、という感じです。
一部、トランスポゾンエレメントの挿入部位は、短い配列が多めにマップされてしまうそうです。

では次にアセンブルの結果
こちらはPacBioのブログに詳しいです。(http://blog.pacificbiosciences.com/2014/01/data-release-preliminary-de-novo.html


メリーランド大学のDr. Sergei KorenとDr. Adam Philippyは、昨年末に開発したPacBioToCAの新しいバージョンを使用して、リファレンスゲノムRelease 5 よりも少ないContigを得ることに成功しました。これはすごい!
X染色体については、読んだ個体が成虫のオスだけど、リファレンスはオスメス混合の胚由来、ということが原因かもしれない、とのこと。

ちなみにこれらのデータは上記、PacBioブログからリンクがあるので、誰でもダウンロードできます。


3L染色体が1本のContigになったというのは驚きです!

"haploid assembly" と但し書きがあったのに気が付いた方、そうです、"diploid assembly"というのもPacBioでは開発中なのです。
その名も「FALCON」
ベータ版はすでに公開されてます。 ここ
前のブログでも少し紹介しましたが、Diploid Aware のアセンブリアルゴリズムです。
すごいと思いますが、どうやって確かめるのがベストなのか?
世の中に、Diploidの情報が載っているゲノムリファレンス、ってあるんでしょうか?
もちろんヒトなどではSNPsのデータベースはありますし、ハプロタイプブロックなどの情報はあることにはあるけれど、それらが本当に正しいのかをどうやって見たら良いのでしょうね。
PacBioで読んで、FALCONでアセンブリして、DiploidにContigができたとして、それをどうやって確かめるか・・・ それが問題だ。

ともあれ、FALCONはそのうちPacBioのソフトウェアにデフォルトで入れ込まれるでしょう。


2014年1月12日日曜日

2014年 始動!


2014年、仕事初めから1週間経ちました。
遅れましたが、今年も宜しくお願いします!

いやー、寒いですねえ。 
成人の日、ってなんでいつもこんなに寒いんでしょうか。
というか、こんな寒い時期に成人式をしなくても良いのに。
と思って調べたら、最初の成人式は、秋だった、そうです!

現在の埼玉県蕨市で昭和21年11月22日に実施された「青年際」がルーツで、2年後に施行された祝日法により、1月15日に「成人の日」として制定、その後成人式は全国に広まっていったとのこと。
2000年からは1月第2月曜日、になりましたが、寒い時期であることは違い無い。
と、思ったら、地方では若い人が帰省するお盆の時期に成人式をするところも多い、らしいですね。

私の頃は1月15日に成人式をしたのですが、今でも忘れられない思い出があります。
小学校時代、親友の1人だったY君が、PhenotypeがなんとXさんになっていたんです!
意味わかりますよね。 
「何で振袖着てるの?」って。 でも女子からは大人気だった。
まあ、人生いろいろですから。


さて、今年の予定です。

今年は忙しくなります。 でも心は亡くさないようにします。
これまでのマーケティング活動・サポート活動が、着実に効果を出しつつあり、これからはプラス数台が予定されています。
そうなると必要なのがまず人材。 
NGS現場の会のメーリングリストにも昨年末流しましたが、今(2014年1月現在)、私たちと一緒に働いてくれる、優秀な人材を募集していますので、興味がある方はこちらまでお気軽にメールください。(info_pac(アット)digital-biology.co.jp ; トミーデジタルバイオロジー株式会社・パシフィックバイオサイエンス事業部まで)
募集職種は、実験サポートと、データ解析サポートの2種。正社員。


今年のイベント予定は、アメリカ本国ですでに決まっている学会ものはこちら
1月:PAG XXII (Plant and Animal Genome Conference; San Diego)
2月:AGBT 15th (Advances in Genome Biology and Technology)
5月:American Society of Microbiology

その他、User Meetingが通常2回ほどあります。

日本及びアジアでは、今のところ学会だと
3月:第8回日本ゲノム微生物学会(東京農業大学)にてランチョン
5月:PAG Asia 2014(シンガポール)にてセミナーワークショップ
8月:第8回細菌学若手コロッセウム(北海道ニセコ)にてランチョン
11月:第37回分子生物学会(横浜)にて何か

その他、
User Meetingが5月にシンガポールで予定
同じく5月に、東京で中規模なセミナーを予定
時期は未定だが、ぼちぼちセミナーワークショップを予定
また、頼まれたら拒みませんので、日本各地でプレゼンなど

ご存じ(?)フリーシークエンスキャンペーンの皆様にも、今年のどこかで面白い発表をして頂けたら素晴らしいですね。

そういえばこの企画の詳細はまだブログでは書いていませんでした。
これは、2013年のNGS現場の会大会で発表した企画で、熱意ある若い研究者に、PacBioシークエンスを無料でして差し上げる、というものです。

セル数の制限はありますが、面白い実験提案が集まり、その中から5人に絞り、決定しました。
必要量のゲノムが用意できたかたの中には、もうシークエンスに入っているサンプルもあります。
区切りの良い段階で、途中経過を報告しますね。

ちなみにこれらのシークエンスは、生物種は違うものの、20kbライブラリ、Blue Pippinサイズセレクション、P4 またはP5ポリメラーゼ使用、180分Movie撮影、のデノボアセンブリです。
さてさてどうなるか? 期待していて下さい。

では、2014年、始動!!