この間「NGS現場の会」で、参加者のひとたちと話していて、気づきました。
PacBio
RS に付属するソフトウェア、について今までブログで全然触れていなかった、と。
"PacBio
RS Software and Data Analysis" という、最近出来立てのチラシがあるんですが、その中にこんな絵があります。
中央下のシーケンサーから時計回りに、
RS Remote
RS Touch
SMRT Portal
SMRT View
DevNet
とあります。このうちDevNetはPacBioのサイトで、開発中のツールなどを提供しているもので、今日は含めません。
では、順番に説明します。
RS Remote: ユーザの用意したWindows PC にインストールします。 ここでランの設定や、実行中のランの様子を確認します。 終わったランの、時間軸でのジョブの様子を見ることもできます(例えば何時に何番目のセルのランが行われていたか、など)
RS Touch: シーケンサー本体にインストールされていて、タッチパネルから操作します。 主に、RS Remoteで設定し保存されたランを、実行する時に使います。 実行中のランの様子をここからも確認できます。 装置のエラー(温度やレーザーの異常、データの転送エラー)などがあれば、この画面に表示されます。
SMRT Portal: ユーザが2次解析を行うときのウェブブラウザアプリです。 ユーザは、用意したLinuxサーバに、SMRT Analysis という2次解析ソフトをインストールします。 SMRT Portalは、このSMRT AnalysisソフトのGUIで、Internet Explore, Fire Fox, Google Chrome のブラウザに対応しています。 SMRT Analysisについては後ほど。
SMRT View: いわゆるゲノムブラウザです。 Java で動き、Mapping の結果などを参照できます。
これらのソフトは似たような名前なので、最初は良くごっちゃになりました。
特に、RS RemoteとRS Touchは機能が似ている上、名前も似ている。
そしてこれはデータの流れをまとめた図。
ランの設定をするのがRS Remote(左下)
シーケンサー本体のRS Touch上でランを実行したら1次解析のデータ(ベースコール結果)が作られます。 この1次解析自体は、シーケンサー横の黒いベースコールサーバ(Blade Center)内で行われます。
1次解析データは、HDF5という階層型のデータフォーマットと、生のFastq、Fastaデータが含まれ、これらは自動的にユーザのストレージサーバに転送されます。
次に、WebアプリであるSMRT Portal(中央下)から、ユーザは、SMRT Analysisにアクセスします。
SMRT Portal上で、ユーザは、ストレージサーバに転送された1次解析データをクエリに、2次解析(MappingとかAssemblyとか)の設定をします。
SMRT Analysisはストレージ内の1次解析データを呼び出し、計算をして、BAMやSAMなどの結果を指定した場所に書き込みます。
ちなみに2次解析のコマンド群をSMRT Pipeと呼んだりします。
GUIで行いたい方向けに、SMRT Portalがあるんですが、CUIがいい!ってひとはこのSMRT Analysisをコマンドべースで使うのももちろんOK
SMRT Analysisの解析メニューは、
BLASR(ブレイザーと発音)というPacのロングリードに向いたアライメントツール
GATKのGenotyperを使用したSNP検出ツール
ALLORA(アローラと発音)という名のアセンブラー
ギャップフィルタリングやScaffoldingをするAHA(アハッ)
そしてMethylation 検出
の5つが柱。 5のMethylation検出は今度のバージョン1.3.1から新たに加わります。
これらについては、そのうち、例を出しながら書く予定。
さて、SMRT Analysisはユーザがサーバにインストールするわけですが、どんなサーバを用意すれば良いのでしょうか?
OSはUbuntu 10.0.4以降、CentOS 5.6以降
MySQL、bash shell、Perl v5.8.8以降、Perl XML parserがインストールされていることが必要です。
ハードウェアの最低条件
ヘッドノード: 16GB~32GBのメモリ、250GBのスペース
子ノード(5つ): コアあたり2GBメモリで、ノードあたり8コア、250GBのスペース
ストレージ: 約10TB
これに満たなくても動くことは動きます。
ただ、遅いかも。
メモリは多いに越したことはないけれど、ストレージのディスクを速いのにしたほうが、実行速度は高まるらしいです。
私は、感覚的にはそうかなあ、って感じですが。
ということで、ユーザがインストールしなくてはならないのはRS RemoteとSMRT Analysisの2つ。
RS Remoteは普通のWindows PCで動くで問題無いが、SMRT AnalysisはそこそこなスペックのLinuxサーバが必要。
特に、大きなゲノムサイズに挑戦するには、メモリは多い方が良いです。