2014年4月1日火曜日

PacBio現場の会

今日から新年度ですね。
上野公園は桜も満開、花粉も飛んでいますが、皆さんいかがお過ごしでしょうか。

「3月上旬からブログ更新してないね」と、同僚から催促されましたので、4月から頻繁に更新します。
3月は忙しい年度末だったので、いろいろと暇が取れなかったのですよ。

さて、ご存知の方もいると思いますが今年は、NGS現場の会の大会はありません。
しかし、普段から、PacBioの情報提供の必要さを強く感じていますので、今年は、PacBio誰でも参加OKセミナーを開催することにしました。
通称、「PacBio現場の会!」

現場の会、という名前にふさわしく、誰でも(もちろん某ショートリードメーカーさんでも)参加OKです。 競合他社はご遠慮させて頂きます、なんて、小さいことは言いません!

詳細は、NGS現場の会のメーリングリスト、に流しますが、現時点で決まっていることをお知らせします。
とり急ぎ、5月16日(金)を、皆さん、カレンダーでチェックしましょう!!
前日くらいに東京に来る予定があるかた、ぜひ、寄ってみてはいかがでしょうか。
参加方法は、決まり次第、まもなくメーリングリストでお知らせします。

【PacBio現場の会】
日時: 5月16日(金) 時間は後ほど
場所: 秋葉原UDX Next1Room
参加人数: およそ100名+

現時点で決定している演者の方は以下のとおりです。
皆さん、ご協力本当にありがとうございます!

(演者の方のお名前・50音順)
笠原 雅弘さま (東京大学)
鎌田 真由美さま(慶応義塾大学)
鈴木 智さま (日本ジェネティクス株式会社)
谷沢 靖洋さま (国立遺伝学研究所)
中野 和真さま (沖縄綜合科学研究所)
中村 昇太さま (大阪大学・微生物病研究所)
宮本 真理さま (キアゲン・株式会社CLCバイオジャパン)
湯原 悟志さま (タカラバイオ株式会社)
Robert Sebraさま (Mount Sinai Hospital)
演者未定  (Strand Life Sciences)
演者未定

バクテリア、真核生物、ウェット、ドライ、アカデミック、企業 ・・・

私も、PacBioのアプリケーションについて比較的新しいものを紹介する予定です。
今は弊社ラボで検証中。

また、いかにも企業セミナー、っぽくならないように、「現場の会」の雰囲気を醸し出すように頑張ります。  



2014年3月10日月曜日

NGSワークショップ@つくば


次世代シーケンサー研究推進のための
データ解析ワークショップ(NGSワークショップ)
というイベントが3月12日、つくばにて行われます。
私はここで、PacBioについて少し喋る予定です。
最近、PacBio関連でいろいろニュース(大型ゲノムのアセンブリやcDNAシークエンスなど)が出てきています。
昨年の「NGS現場の会・第3回大会」で話したことから随分Updateがあります。
これからのロードマップについても皆さん興味あるところでしょうね。

「現場の会」のメーリングリストでは先週まだ参加を募集していましたので、12日の方は参加可能だと思います。

それでは、今日はお知らせだけにして、プレゼン作りに励みます!




2014年2月19日水曜日

PacBioデータだけでヒトゲノム54X

AGBTに参加された方はこのニュースをフロリダで聞いたのかもしれません。 (私は日本でしたが)
PacBioは昨年、バクテリアサイズのゲノムアセンブリにおいては、ライバルはいない! と言っても過言ではないほど、確固たる地位をつくりました。
チャレンジは少しずつ大きなゲノムサイズに移り、ホウレンソウゲノム、Arabidopsisゲノム、Drosophilaゲノムも、PacBioだけで読める、アセンブリできる、というレベルになりました。

そして、今、まさに時代はヒトゲノムをPacBioだけでアセンブリしようというステージに突入!

PacBioブログには12日に発表されていますが、Washington University in St. LouisのRick Wilson博士、University of WashingtonのEvan Eichler博士らのグループは、Haploidのセルラインである CHM1htertを、PacBioのデータのみで何と、54カバレッジも読んだそうです!

以前、彼らはここのブログでヒトゲノム10x読んで、それを公開したことを報告しましたが、今回はこれをさらに44x分読み足したということです。
これにより、NIHのAlternate reference assemblyはより精度が上がることが予想されます。

とは言っても、この、ヒトゲノム54カバレッジ分のSMRT Cellデータ、普通のサーバでは解析でき無さそうなことは予想できます。
ちなみに、アセンブリは、まだプロトタイプの次世代HGAp(FALCON+CA8.1)を使用

一番計算処理に負担がかかるところが、最初のPre-Assembly(エラー補正)ステップです。
PacBio社は、ここでGoogleの協力を要請。 Google Cloud Platformのスパコンシステムで、405,000 CPU hoursを使用することで、たった一日でシングルリード同士をアラインさせてPre-Assembly終了!
“普通の” サーバでやったら何か月(?)かかるのかな。

このPre-Assemblyされたデータを使って、PacBioでCelera Assemblyし、3.25Gbのアセンブリ配列、4.38Mb のN50、44Mbの最大Contigを得ることができました。
この数字、Contig N50= 4.38Mb というのは、2013年6月14日現在のCHM1アセンブリでのContig N50= 144Kbと比べて桁違いに大きいです。

CHM1_1.1は、ショートリードを使って出したデータを、Reference Guided Assemblyした後、BAC by BACでつないでいったらしいです。 それでも144KbしかN50が出ていない!

昨年10月のアメリカ人類遺伝学会では、ヒトゲノム10xをPacBioで読んだ、というのが話題になりました。
その時、別のセッションで、hg20、GRCh38のリリースの話もありました。
これは新しいゲノムリファレンスの話で、今までのヒトゲノム参照配列のバージョンアップです。
PacBio 54xプロジェクトによって、新たに大きな構造変異などが見つかることでしょう。
今までリファレンスと呼ばれていた配列も、、大幅に変わってくるかもしれませんね。

個人ゲノムの幕開け(の幕開け?)、のような気がするのであります!





2014年2月14日金曜日

Blue Pippin - PacBioデータを最大限に生かす組み合わせ

Icahn Institute for Genomics and Multiscale Biology、Mount Sinai (NY)の研究者、Dr. Robert Sebraによると、Blue PippinはPacBioのロングリードアドバンテージを最大限に生かす、最高のマシンです。


Blue Pippinとは何か?

通常、ライブラリ作製をすると、狙ったサイズでシェアリングしても、短い長さのDNA断片も混ざってきてしまいます。
AMPureビーズ精製で途中何度も短いフラグメントを除く作業が入りますが、これは数~数十bp位の非常に短いフラグメントを除くためのもの。
例えば20kbを狙ってSMRT Bellを作ったときの、1kbのBellを取り除きたい時、AMPure濃度を変えて行うプロトコルもあるにはありますが、きっかり取り除くことは難しいそうです。

であれば、ライブラリをゲルに流して、大きなサイズだけを切り出し、という手が思いつくかもしれません。
そうです。
それを自動でやってくれるのがBlue Pippinです。 

カセットには5レーンあって、最大4サンプルまで一度に、あと1つのレーンはマーカーを一緒に電気泳動で流し、取りたいサイズのマーカーが来たら、電流の方向を変えて、取りたいサイズのサンプルを別の穴に入れる、
と、ざっくり言えばこんな感じです。

どのサイズで区切ったら良いのか、というのは、10kb、7kb、4kbと今は3種類あり、DNA量によって使えるサイズの限度があります。
7kbで区切る、という意味は、例えば作製した20kb SMRT Bellライブラリを電気泳動して、7kb以上の長さのSMRT Bellだけ抽出する、ということです。

そもそも、短いライブラリが混ざると何がいけないのか?
良く聞かれる質問です。

ライブラリが短いと、SMRT Cellのウェル、ZMWに入りやすいのです。
経験上、3kbより短いライブラリはそれ以上の長さのものよりもZMWに入りやすいようです。
MagBeadsとかで、長いライブラリを優先的にZMWの穴にロードする技術はあるのですが、それでも、20kbと3kbでは、圧倒的に3kbが穴に入りやすいらしい。
らしい、というのは実際の観察は不可能なので、データから予想するしかないからです。

そうするとどうなるか?

短いライブラリが競争で勝ってしまうと、出力するデータの、特にサブリードが短いものばかりとれてしまう。
サブリードというのは、SMRT Bell ライブラリの長さを超えることはありえないので、結局、長いライブラリを読んでいることにはならない。

このグラフは、Dr. Sebraが、同じMRSAサンプルを、Blue Pippinサイズセレクション有り無しで読んだ時のサブリードの分布です。
上が無し、下が有り (SMRT Cellの数と目盛が違うのに注意)
注目すべきは、サブリードのN50 が、Blue Pippin無しのときが5,000bp、有りのときが12,500bpという点!
これは今までのデータと比較するとすごいことなんです。


今、PacBioを使って20kbライブラリをSequenceするときは、Blue Pippinによるサイズセレクションがほぼ必須になりつつあります。
彼らは今、NA12878のサンプルを、Blue Pippinサイズセレクションした後のライブラリを使って、読み続けています。
もう既に30x以上、読んだそうです。

この、Sage Science社のテクニカルノートのPDF版が欲しい方は、いつものように、info_pac(アット)digital-biology.co.jp までお気軽に。
誰にでも差し上げます。

ちなみに彼(Dr. Sebra、Bobbyという愛称で呼ばれています)は、写真ではわかりづらいですがすごい面白い人物です。
ユーモアがあり、ファッションにこだわり、日本が好きで、昔DJをやってたくらい音楽が好きで、かつ良い意味でのクレージー、そして紳士です。
今度日本に呼ぼうかなあと計画していますが、まだわかりません。 その時はお知らせします!


2014年2月13日木曜日

NextSeq500


「Sochi 2014」 ソチオリンピックで行われていた、日本対ロシアの女子カーリングの試合に見入ってしまいました。
カーリングって結構長丁場です。 氷上のチェスと言われるように、静かな知的スポーツです。
やったことは無いですが、昔、カナダに留学していた頃、良くアマチュアHockeyを見に行ってました。 そのメイン会場の隣、サブ会場で熱く繰り広げられていたのが、Curlingでした。
それまでCurlingは、おじさんおばさんのスポーツ、っていう偏見を持っていたのですが、とんでもない! きれいなお姉さんが真剣な顔してストーンを滑らせている姿は、思わず見入ってしまいました。
「見るとこ違うだろ!ストーンを見ろ!」という声が聞こえてきそうなので個人的なことはこれくらいにして、今日も某社の新型シークエンサーの話です。


イルミナ社の新型シークエンサー、NextSeq 500が日本でもお披露目されています。
HiSeqとMySeqの中間機種、「初めてのハイスループットデスクトップ型シーケンサー」(イルミナ社)ということらしいです。

デスクトップということで、横幅・奥行はMiSeqとほぼ同じ、高さはNextSeq500の方が高い。
以下の写真は、私の友達の友達(ほとんど他人?)がつくっているサイト(AllSeq)から拝借しました。
先ずはデザイン。 光沢感のある黒をベースにまとめていますね。
MiSeq Dxから、黒系にシフトしたのかな。 前は白が多かった気がします。
シークエンサーという感じがしないです。 私だけ?

そういえばシークエンサーって、黒+白の組み合わせが多いですね。 個人的には真っ赤なシークエンサーも良いと思うんですが。


続いてフローセル
でかい! 超でかい!!
iPad mini か、ってくらいでかい!
ちなみに左がHiSeq2500のラピッドモードフローセル、右がMiSeqのフローセル
この特大NextSeq500フローセルは、4レーンあるように見えますが、実はつながっていて、実質1レーンだそうです。
複数サンプル流すには、バーコードが必要ということか。


こちらのブログ曰く、スループットで言ったらHiSeq2500の方が断然買いだそうです。
HiSeq2500がアップグレード後のスループット1000Gbで、NextSeq500が120Gb
スループットで言えばHiSeq2500の8分の1です。
NextSeq500は1人分のヒトゲノムを40xで読むことができる。しかし今の時代、誰がヒトゲノムを1検体ずつ読むのか?と言っています(さすがアメリカ人のブログ)。
1ランに29時間かかる。 コンスタントに流すにはスケジュールをちゃんと組まなきゃいけませんね。

HiSeq2500なら、アップグレード後なら、8検体ヒトゲノム40xを、6日で一気に読めるそうです。
また、アップグレード前でも、8レーン使えるハイスループットモードと、2レーン使えるラピッドモードがあり、2つのフローセルをそれぞれ別々のモードを設定できるらしいので組み合わせはたくさん。
というわけでHiSeq2500の方が、ミドルクラスからハイクラスまで使い勝手が広い、と言っています。

NextSeq500の特徴は、2つの蛍光を使って4塩基を検出するということ。
これにより光学系を節約しているとか。
2つの蛍光で4塩基を検出というのは、レッドでCを、グリーンでTを、その両方の蛍光でAを、蛍光無しのときGを検出するということらしいです。
ん?蛍光無しのときG? 

まだ実際のデータがたくさん出て来ていませんが、何らかのエラーバイアスがありそうな気もします。
とはいえ、デスクトップ型で、このスループットを出してきたのはすごい。
将来が楽しみです。


2014年2月12日水曜日

AGBT2014 PacBioプレゼンテーションのお知らせ

最近、関東でも雪が降っていますね。
風邪などひいていませんでしょうか? 私はひきました。
でも、インフルエンザでなければ、1日ずっと寝る+ビタミンで、治します!


まだ私は行ったことが無いのですが、AGBTが今週末フロリダで行われます。
参加される方はいますか?
PacBioも展示、プレゼン、ワークショップ、を頑張るみたいです。
ポスターもたくさん。日本人ユーザの発表もあるようですね。

以下のチラシ、をPDFで欲しい方、info_pac(アット)digital-biology.co.jp まで、
1.お名前、2.AGBTに行くかどうか、を書いて送って下さい。
もれなくどなたでも、差し上げます。

PacBioのブースでも、もちろんもらえると思いますよ。


残念ながらAGBTに行けない方(私を含め)、ワークショップの模様はビデオ撮影されますので、後程見ることができます。
ビデオプレゼンテーションの視聴に登録したい方は、こちらから是非どうぞ!

2014年1月29日水曜日

SMRT Portal

PacBioのデータ解析ソフトに、SMRT Analysis というものがあります。
コマンドラインツール、ウェブベースのGUIツール、が含まれているパッケージソフトで、何と無償です。
PacBioのユーザー以外でも誰でもここからダウンロードして使えます。
左下のsmrtanalysisというところから、お使いのOSバージョンを確認して落とします。

サーバの必要スペックが結構高くて、基本はクラスターサーバです。
SGEなどのジョブエンジンが動いている必要があります。 
ちなみにSGEは有償/無償のものがありますが、どちらでも動きます。

基本クラスターサーバと言ったのは、動かすだけなら、時間かかっても良いなら、マルチコアでメモリーたくさん積んだシングルノードのサーバでも十分だから。
でも、PacBioはお勧めしてません。

データ量が年々倍々に増えていくので、必要最低スペックでサーバを購入してしまうと、後で増設しないといけない。
当たり前かもしれませんが、私も実感しています。

ウェブGUIベースのSMRT Portal の使い方を説明した、いーいビデオがあります。
こちら


バージョンはちょっと前だけど、アセンブラ(HGAp)とBaseMod(塩基修飾)のやり方が、紹介されています。
クリック、クリックで簡単操作~!

基本の画面は、2年間あまり変わっていません。
およそ4半期ごとに行われるバージョンアップで、解析機能メニューが増えたり、減ったりはします。
次のバージョンアップでは、以下の機能追加を予定しています!

  1. cDNAの解析: アイソフォームごとにサブリードをクラスタリングして、ゲノムにマッピング
  2. ロングアンプリコン: キメラ配列がある場合のフィルタリング機能追加
  3. マイナーアレル変異検出: CCSで1%程度のマイナー変異を検出
これは予定ですよ。
確定ではありませんので。

しかしこれらの解析は、実験系も同時にアップデートしないといけない。
完全cDNAのシークエンスは、今後、Iso-Seqと呼びます。
Isoform Sequenceの略です。 これについてはまた別の機会に書きます。


SMRT Analysis、インストールやアップデートは、結構ハードルがあったり面倒くさかったりするんですが、解析機能そのものは私は好きです。
余分な機能が付いていない、シンプルなところが好きなのかもしれない。
GUIはデザインも良いと思いますね。