2012年1月31日火曜日

とりあえず装置について

最近特に寒いですね。
うちの近所の雪がまだ融けません。 もう1週間近く経つのに。

今日は、PacBio RSの装置について書きます。


左の少し小さい黒い箱が、Blade Centerという名のサーバーです。
ここではシーケンサーからでてきたデータの一次解析を行います。
一次解析については別の日に詳しく書きます。
実際は、このBlade Centerと隣のシーケンサーはLANケーブルでつながれています。
そしてシーケンスデータは、Blade Centerからユーザの用意した二次解析用サーバーに転送されます。

このBlade Centerは、ユーザは直接触ることはできません。
PacBioの人間か、私たちDistributorの人間が、機械の調整を行ったり、ログを取ったり、通信試験をしたりするときにPCをつなげることはあります。
ちなみにこのBlade Centerは、アメリカのPac本社から遠隔で操作することができます。 何か不具合があったときの原因究明のため、ログだけは取れるようになっているのです。(ユーザの協力が必要)


シーケンサー本体の、上のタッチパネルはRS Touchという操作画面です。
ランを設定するときに使います。 
ランが動いているときは、あとどれだけ時間がかかるか、という情報が、SMRT Cellの蛍光のきれいなネオンと共にが表示されます。


シーケンサー下の左から順に、Wasteボックス、試薬・サンプルローダー、SMRT Cell・チップローダー、水タンク、があります。

試薬プレートとサンプルを格納する引出し、SMRT Cellとチップ(Tip)をのせる引出し、はボタンを押すと厳かに開閉されます。
たまに、ちゃんと閉じないでランプが点滅していることがあるそうなので、そういうときは再度閉めましょう。
この試薬プレートやチップは純正品を使います。代替品では収まりません。
全ては専用のキットを用いるのです。

PacBioのYouTubeより


Wasteボックスには使用した後のSMRT Cellが捨てられます。
このボックスは閉めるときに真ん中あたりを押してしっかり閉めましょう。

水タンクは適度な湿気を維持するために必要です。
ボタンを押すと扉が開いて、中に1リットルのペットボトルみたいな容器があり、そこに水が入っています。
個人的には、ここを開け閉めする扉のスピードが好きです。
スターウオーズに出てくる宇宙船内の扉を連想させます。 エンジニアのこだわりでしょうか?

と、まあ、ユーザーが目にする場所の装置の説明でした。

今後は、
  1. PacBioはどんな研究に用いられるべきか
  2. 論文ではどのように使用されているか
  3. ライブラリーはどうやって作るか
  4. IT関連はどれくらいのスペックが必要か
  5. 一次解析はどうやって行われるか
  6. PacBioに付属する解析ソフトウェアにはどんなものがあるか
  7. PacBioデータを扱える他のソフトウェアにはどんなものがあるか
  8. その他苦労話(これは書けないか!?)
ということを中心に紹介していこうと思います。(順不同になりますが)

スクリーンショットは主に、PacBio社のサイトやYouTube、プレゼンテーションから引用します。
当たり前ですがConfidentialなものは一切ありませんので、ご安心ください。

2012年1月24日火曜日

Movie って?

前回、45分とか75分とか、Movieの時間を最後に書きましたが、説明が足りなかったので付け足します。

PacBioは、ほかの次世代シーケンサーと違って、DNA合成の様子をビデオで撮ります。
SMRT Cellの中には150,000のZMWがあり、この中でDNA合成が行われるわけです。
ヌクレオチドが取り込まれるときに、リン酸についた蛍光が自動的に切り離され、そのときCellの下からあてているレーザーの波長に励起して、A、T、C、Gに特徴的な波形データが得られます。

「自動的に切り離される」ので、Real Timeなわけです。
Wash & Detect ではないので、反応は止めません。
そこで、カメラによる撮影ではなく、ムービーなのです。

150,000のZMWは、ポリメラーゼが入っていなくても、とりあえずMovieは撮られます。

例えば2kbくらいのインサートの場合、それほど長く撮影しなくても良いので、30分くらい読むとします。
この設定にすると、150,000のZMWは2回に分けて撮影されます(各75,000ZMW)。
1回目のムービーと、2回目のムービーで撮影されるZMWは別々で、それぞれ30分間撮影されます。

今は例として30分にしましたが、長いインサートの場合、最高75分まで撮影することができます。
しかし、75分では1回のムービーしか撮られません。
1回のムービーで撮影できるZMWは75,000なので、75分のムービーではCellの半分のZMWしか実際は読んでいないことになりますね。

なぜ長い時間のムービーは1回しか撮られないのでしょうか。

30分を2回撮る場合は、1回目のムービーの時、読まれている75,000ZMW以外の、2回目のムービーで読まれるはずの75,000ZMWでも反応は行われているのです。
2回目のムービーでに読まれるZMWでは、もうすでに30分以上、反応が進んでいるので、ポリメラーゼが弱っています。
したがって、1回目のムービーで読まれるZMWのデータより、2回目のムービーで読まれるZMWのデータの方が、「若干弱気」です。

75分も読んだら、2回目のムービーはもうすでに75分以上経っているのでポリメラーゼはかなりヘタっていることは想像できるでしょう。
他にも理由はありますが、これも長い時間のムービーは1回しか撮られない理由です。

ちなみに、ZMW内のポリメラーゼは、1秒間に1~3くらいの塩基を合成しています。
WTのポリメラーゼはもっと高速でしょうが、それでは機械の検出技術が追い付かないので、わざと遅いMutantを作って使っているのです。

2012年1月20日金曜日

PacBio の精度 (2) 出力リード数

前回、リードの精度が85%くらい、と書きましたが、もう少し正確には、「ポリメラーゼによって合成される1本のリードに含まれる塩基が、平均して85%は正しく読まれる」 ということです。

精度と間違われえやすいのが、出力されるリード数です。
1 SMRT Cellあたり、何本のリードが出力されるか、ですが、2kbくらいの長さのライブラリの場合、理想的には35,000本以上です。

1つのSMRT Cellには、15万個のZMW(zero mode waveguides)があり、その15万個の穴の中でポリメラーゼによるDNA合成が行われます。


もちろん15万個のすべてのZMWで合成が行われるわけではなく、次の3つの場合に分かれます。

0.  空(から)のZMW:合成は行われない
1.  1つのポリメラーゼ+テンプレートの入ったZMW:正しく合成が行われる
2.  それ以外:こちらはノイズになるので検出対象にならない

確率的には1/3の割合(厳密にはポアソン分布)で、正しく合成が行われる状態のZMWができるわけです。

35,000本のリード数は23.3% (35,000/150,000)
実際には30% を超えれば非常に良いとし、20-30%はAcceptableであるとしています。
10%台はちょっと低いです。

ちなみにこの出力リードの数は、ライブラリーの大きさに依存します。
ライブラリーが例えば6kbや10kbなどと長い場合、できるだけ長く読むにはムービー時間を長く設定しなくてはなりません。
現在は、45分を超えるムービーを撮影する場合、SMRT Cellに含まれる15万のZMWの、半分の75,000 ZMWしか読まれません。
したがって、75,000の30%で正しく合成が行われるとすると22,000本、20%では15,000本が読まれる計算になります。

このあたりの計算は、実験計画を組む際に必要でしょう。 

長く読もうとすると、それだけ出力されるリード数を犠牲にしなければいけないのです。

2012年1月17日火曜日

PacBioの精度 (1)

PacBioのデータの精度と聞いて、皆さんどんな印象を持っているでしょうか?
一分子で読むことのインパクトや原理のことは注目されますが、研究者にとってはやはりデータの精度がどれくらいのものなのか、が重要な基準でしょう。

前から(私が聞くところでは2年くらい前から)言われていたことで、データの精度は70-80%くらいだ、というのがあります。
これは、額面通りに受け取ってしまうと、つまり他の次世代シーケンサーと比較してしまうと、とても効率の悪いシステムに聞こえてしまいそうです。

しかし、これはPacBioの1本あたりのリードの精度です。
ちなみに85%というのが最近の値です。 8割以上、塩基を正しく読んでいます。

でも、インサート配列が数百塩基の場合、同じインサート配列を何度も読むことによって、この精度を限りなく100%に近づけることができます。 「何度も」というのは5回くらいで、結果99%に近づくそうです(λファージを読んだときの結果です)。 

同じインサートを何度も読むことを可能にしているのが、ダンベル型のライブラリーです。
数字は無視してください。
左のアダプターにくっついているのがポリメラーゼですが、これが2本鎖DNAを何度も読むことができることが、明らかでしょう。
センス鎖とアンチセンス鎖が何度も読まれるわけです。
これを、Circular Consensus と呼びます。


一方、できるだけ長く読みたい、そんな場合は15%の読み取り間違いも許しましょう。
PacBioの特徴は、最大6kbのリードを出すことができる超ロングリードにあります。
(この数字は近い将来更新されます)
その場合の読み取りエラーは、別のショートリードシーケンサー、例えばHiSeqなどで補うことができると思います。

ということで、読み取り精度が低い、というのは
  • 1分子インサートをたった1回しか読まない場合で、
  • インサートが短ければ何回も繰り返し読めるので精度を限りなく100%に近づけることが可能
です。

この絵は、以前のExpression Analysis社のWeb セミナーの絵ですが、真ん中がCircular Consensus、何度も同じ配列を読むパターンです。 アダプターを除いた後の配列を重ねれば、その場所の精度が上がるわけです。

一番上が6kbのインサートを読むケースです。 一本しかありませんが超ロングリードです。
一番下のStrobeは今は無視して下さい。

以前Roche454のユーザから聞いたことがあるのですが、長いリードは長いということに大変価値があるので、読み取りのエラーはショートリードで補う方が良いとのことです。
Pacの価値も超ロングリードということにあるので、同様な使われ方をされるのではないかと、信じています。


2012年1月15日日曜日

PacBioシーケンサー本体の概略と周りの環境

今年もよろしくお願いします。 

先週から、PacBioシーケンサーにとっぷり浸かる生活が始まりました。
待ちに待っていましたが、実物を前にすると、さすがにすごい代物です。
昨夜はついに、夢にまでこの巨体が出てきました。

見たことが無い、という方のために説明しますと、右側の大きい方が、シーケンサー本体です。
高さ158.0 cm、幅200.4 cm、奥行き77.0 cmで、重さは約1トンあります。

左側の黒い箱が、一時的なデータストレージ+ベースコール計算機です。 100kg 以上あります。

さらに、外付け窒素ボンベが最低2本必要です。 窒素ボンベからは常に一定の圧が右の装置に送り込まれ、内部のレーザー光学機器を水平に保っているのです。

操作方法と機器について、よくまとめられたオーバービューをYouTubeで見つけました。

SMRT Cell というのは、他社製のシーケンサーでいうフローセルやチップと同義語です。
このCellの底に、ZMWという小さい穴が15万個空いていて、その穴の中でポリメラーゼが実際にDNAを合成するわけです。 
一つのSMRT Cellはこんなに小さいんですよ。
これが8個で1セット。 ちょうど8レーンで1フローセル、と似ていますね。

サンプル調整した後は、指定された場所にキットをガチャッとセットして、タッチパネルをいじくってRunします。 具体的には、サンプルを選んだり、読む時のムービー時間をセットしたり、など。

ついでに言うと、このタッチパネルの反応が、日本人には遅く感じるかもしれません。(私だけ?)
例えて言うと、一昔前の郵便局のATM  ちゃんとタッチしてもちょっと遅れる。
そこはがまんで割り切るべきですね。

PacBioを置く環境についていうと、大事なのは床が丈夫で、水平であること。
水平であることは最も重要です。 これは設置前にエンジニアが厳しくチェックします。

そして温度が常に一定であること。 温度変化は内部の光学機器に大きな影響を及ぼします。
なので、空調設備は大事です。 休み中でも空調は切ってはいけません。
長時間作業をする場合は、上着を忘れずに。

先ほど紹介したYouTubeにはシーケンサー内部の様子が少し登場します。
サンプルのローディングはロボットが行います。 産業ロボット大国の日本製でないのが残念ですが、動きは意外と速いです。

無事データが出てくれば、シーケンサー横の黒い箱で、QCを行います。
あまり読めていない時、データが汚いときは教えてくれます。
ここでのクオリティ結果は、先のタッチパネルでも参照できますが、別の2次解析用サーバに転送して、RS Remoteというソフトで参照するのが一般的だそうです。
このあたりはまた、おいおい。