2012年5月31日木曜日

リード長とインサート長の関係

先週の「現場の会」で私の喋りの後の質問の中で、ひとつ、深く考えさせられるものがありました。
「リード長を伸ばすために常に酵素を開発しているということだが、酵素をより良いものに変えるのと、インサートの長さと、どちらがクリティカルな問題なのか?」

つまり、酵素を良くすれば長いリードが読める。90分どころか120分、240分レーザー当てても死なないで塩基を読める酵素も出てくるかもしれない。
しかし、一方で、インサートの長さを今の10kbから20kb、30kbと伸ばしていって、これがちゃんと読めるようになるのか?
このせまい小さなZMWの穴に入ることができるのか?

化学的な条件と、物理的な条件と、どちらがよりクリティカルなのか? ということですね。

今のC2ケミストリーでは、10kbまでのインサートを読むことができて、90分Movieで読んだとき、リード長は平均3.5kb、95パーセンタイルでは8kb、最長は15kbくらい、ロングリードでの精度は約85%です。

-----------------ここから先は仮定の話を前提にしていますので注意!--------------------

これが将来、もし、30kbまで読めるようになったとしましょう。 
でも、30kbまで読める、ということと、30kbのインサートが読める、ということは別ですね。
10kbのインサートを1周半(sense + antisense + sense)読めば30kbですから、30kb読める、ということにウソは無いですね。うん、正しい。
でもちゃんと説明しないと、普通、「すごい!それって30kbのインサートが読めるってことでしょ?」って誤解するでしょうね。 うんうん。
(そのときもっと長いインサートも読めたら最高ですが)

で、30kbのインサートを読めるか?ってことになると、今度は物理的な問題ですね。 ZMWの穴の中に効率的に入らなければいけませんから。
短いインサートの方がZMWに入りやすいってことは知られていますので、マグネットビーズでロングの(今は10kbですが)ライブラリーを効率的にZMWに誘導する方法は、開発されています。 学会のポスターでも発表されていますのでご存じの方もいるでしょう。



・・・・・ と、ここまでぎりぎり公開OKな話でした。

リード長が伸びたとしても、それは読める範囲(インサート長)が伸びた、ということとイコールではないので、誰かに説明するときはこれから注意します。
初めて聞いたひとは絶対誤解すると思いますから。

このブログを読んだあなたは、もう間違えませんよね。




これは私が「現場の会」で喋った、という証拠写真(現場の会・アルバムより拝借)


2012年5月29日火曜日

PacBio RS に付属するソフトの概要

この間「NGS現場の会」で、参加者のひとたちと話していて、気づきました。
PacBio RS に付属するソフトウェア、について今までブログで全然触れていなかった、と。

"PacBio RS Software and Data Analysis" という、最近出来立てのチラシがあるんですが、その中にこんな絵があります。


中央下のシーケンサーから時計回りに、
  • RS Remote
  • RS Touch
  • SMRT Portal
  • SMRT View
  • DevNet
とあります。このうちDevNetはPacBioのサイトで、開発中のツールなどを提供しているもので、今日は含めません。

では、順番に説明します。

  1. RS Remote: ユーザの用意したWindows PC にインストールします。 ここでランの設定や、実行中のランの様子を確認します。 終わったランの、時間軸でのジョブの様子を見ることもできます(例えば何時に何番目のセルのランが行われていたか、など)
  2. RS Touch: シーケンサー本体にインストールされていて、タッチパネルから操作します。 主に、RS Remoteで設定し保存されたランを、実行する時に使います。 実行中のランの様子をここからも確認できます。 装置のエラー(温度やレーザーの異常、データの転送エラー)などがあれば、この画面に表示されます。
  3. SMRT Portal: ユーザが2次解析を行うときのウェブブラウザアプリです。 ユーザは、用意したLinuxサーバに、SMRT Analysis という2次解析ソフトをインストールします。 SMRT Portalは、このSMRT AnalysisソフトのGUIで、Internet Explore, Fire Fox, Google Chrome のブラウザに対応しています。 SMRT Analysisについては後ほど。
  4. SMRT View: いわゆるゲノムブラウザです。 Java で動き、Mapping の結果などを参照できます。

これらのソフトは似たような名前なので、最初は良くごっちゃになりました。 
特に、RS RemoteとRS Touchは機能が似ている上、名前も似ている。

そしてこれはデータの流れをまとめた図。 
ランの設定をするのがRS Remote(左下)
シーケンサー本体のRS Touch上でランを実行したら1次解析のデータ(ベースコール結果)が作られます。 この1次解析自体は、シーケンサー横の黒いベースコールサーバ(Blade Center)内で行われます。
1次解析データは、HDF5という階層型のデータフォーマットと、生のFastq、Fastaデータが含まれ、これらは自動的にユーザのストレージサーバに転送されます。 

次に、WebアプリであるSMRT Portal(中央下)から、ユーザは、SMRT Analysisにアクセスします。
SMRT Portal上で、ユーザは、ストレージサーバに転送された1次解析データをクエリに、2次解析(MappingとかAssemblyとか)の設定をします。

SMRT Analysisはストレージ内の1次解析データを呼び出し、計算をして、BAMやSAMなどの結果を指定した場所に書き込みます。
ちなみに2次解析のコマンド群をSMRT Pipeと呼んだりします。 
GUIで行いたい方向けに、SMRT Portalがあるんですが、CUIがいい!ってひとはこのSMRT Analysisをコマンドべースで使うのももちろんOK

SMRT Analysisの解析メニューは、

  1. BLASR(ブレイザーと発音)というPacのロングリードに向いたアライメントツール
  2. GATKのGenotyperを使用したSNP検出ツール
  3. ALLORA(アローラと発音)という名のアセンブラー
  4. ギャップフィルタリングやScaffoldingをするAHA(アハッ)
  5. そしてMethylation 検出
の5つが柱。 5のMethylation検出は今度のバージョン1.3.1から新たに加わります。 
これらについては、そのうち、例を出しながら書く予定。

さて、SMRT Analysisはユーザがサーバにインストールするわけですが、どんなサーバを用意すれば良いのでしょうか?

OSはUbuntu 10.0.4以降、CentOS 5.6以降
MySQL、bash shell、Perl v5.8.8以降、Perl XML parserがインストールされていることが必要です。

ハードウェアの最低条件
ヘッドノード: 16GB~32GBのメモリ、250GBのスペース
子ノード(5つ): コアあたり2GBメモリで、ノードあたり8コア、250GBのスペース
ストレージ: 約10TB

これに満たなくても動くことは動きます。
ただ、遅いかも。
メモリは多いに越したことはないけれど、ストレージのディスクを速いのにしたほうが、実行速度は高まるらしいです。 
私は、感覚的にはそうかなあ、って感じですが。

ということで、ユーザがインストールしなくてはならないのはRS RemoteとSMRT Analysisの2つ。
RS Remoteは普通のWindows PCで動くで問題無いが、SMRT AnalysisはそこそこなスペックのLinuxサーバが必要。
特に、大きなゲノムサイズに挑戦するには、メモリは多い方が良いです。



2012年5月26日土曜日

現場の会

先週、「NGS現場の会・第二回研究会 in 阪急エキスポパーク」に行っていました。
私はその前日チュートリアル、というところで1時間時間を頂き、喋ってきました。
PacBioについて、その原理と特徴、PacBioを使ったアプリケーション例などなど。

プレゼンの前の日は大阪入りして、ホテルで夜3時までスライド作って練習していました。
当日は、最初は緊張してレーザーポインタが震え・・・

私の前はRoche、Illumina、LifeTechと続き、そしてPacBio
それぞれのシーケンステクノロジーの特徴が一日でわかる!って感じですばらしい。

終わってみて、話したいことは大体伝わったかな、という感じはします。

あと、 ブログを知っているひとはかなりいました。 最初、みんなに質問したのですが、300名弱ほどオーディエンスがいたそうですが、3分の1くらい手を上げてくれました。
こんなにマニアックなトピックなんですが。
うれしいことです!

いろんな参加者と話ができて、夜はお酒も入って、ゆるーい感じの学会?です。
ゲノム、メタゲノム、リシーケンス、計算技術、IT、メーカー・・・などなど、その筋の方々、特に現場の方々がそろってわいわいやる。
こういうの良いですね。

この業界は意外と横のつながり、というかメーカーや企業の壁を越えての知り合いは多いのです。
競合の会社でも、社員(現場)のレベルでは飲みに行ったりとか。
でも、これだけたくさんの研究者が一同に集まると、もっともっと輪が広がり、新しい出会いがありました。
前のブログ「ショートリードの憂鬱」を知っているひとから声をかけられ、一気に50人くらい新しい知り合いが増えました。
現場の会に感謝です! 


P.S.
私のプレゼンだけ、白黒コピーでした。 他の企業はカラーできれいだったのに。
これには理由があるんです。
23日の午前2時からKinko'sのサイトがメンテナンスになり、ウェブから印刷を注文できなくなったので、3時に書き上げた私は焦り、とりあえず4時前に寝て、朝8時ごろ北梅田のKinko'sまで20分かけて歩き、印刷を注文したんです。
白黒プリンターは2台あるので印刷が速いと言われたので、時間に追われて白黒印刷にしたわけです。


しばらくブログ更新をしていませんでしたが、これから行きますよ!