2012年10月25日木曜日

SMRT Cellに使用期限がある理由


NHKの、「探検バクモン」という番組で、東京国立近代美術館フィルムセンターの潜入をやっていました。 

名画から普通の映画、珍しい映画や成人映画まで、およそ6万5000本の国内映画のマスターフィルムを、国が保存しているそうです。こんな施設があったとは知らなかった!
「仕分け」されなくて良かった。

目からウロコだったのは、フィルムというのは原料にセルロースを含んでいるので、高温多湿に弱く、ほっておくと酸化してしまってすぐにダメになってしまうそうです。
ここでは温度5度、湿度40%の秘密の倉庫で管理しています。
フィルムって、有機物だったんだ、って思いました。

有機物って言えば、SMRT Cellもそうなんです。
PacBioでシーケンスに使われる、あのタテヨコ1cmくらいのチップです。

SMRT Cellにある15万もの穴は、ZMWと呼ばれ、その底でシーケンス反応が進みます。
穴の底にはビオチン分子があらかじめ接着されていて、反応溶液+ライブラリーを入れたときに、ライブラリーに結合しているポリメラーゼがビオチン分子に結合し、底に固定化されるわけです。
Korlach et al., Selective aluminum passivation for targeted immobilization of single DNA polymerase molecules in zero-mode waveguide nanostructures. より

ビオチン分子をZMWの底に接着させる作業は、Cell作製の比較的早い段階で行われます。
かなりシークレットな情報なので大雑把に言うと、半導体のウエハーってわかりますか? 丸い大きな薄い板みたいなやつです。
あれ一枚から数百個のCellができるのですが、最初にZMWという穴をあけて、ビオチン分子を接着させます。 
その後、穴以外を薄いガラスでコーティングしたり、洗浄したり、1個1個にしたり、60以上の工程を経て、晴れてSMRT Cellが完成します。
以上はダストフリーの、本当に半導体工場みたいなところで行われています。

というわけで、SMRT Cellには、出荷段階で各ZMWに、すでにビオチン分子がくっついています。
これは紛れもなく有機物なので、温度と湿度に弱いのです。
使用期限があるのはそのためです。



ところで最近見た映画は何?と聞かれて、
「アベンジャー」と答えるのはダメですか?

ちゃんとフィルム映画をみなきゃいけませんね。

2012年10月21日日曜日

LSC Long-Readのエラーコレクション

秋は学会・展示会シーズンですね。 
私は10月10日のBioJapan、10月15日のCBI、に行きました。 
来週の日本遺伝学会は残念ながら行けないのですが、来月サンフランシスコで行われるアメリカ人類遺伝学会には行く予定です。
今から楽しみです!

10月10日のBioJapanでは、前回のブログでも書きましたが、沖縄県のセミナーでPacBioの発表がありました。
そこでちょっとサプライズゲストとして、PacBioの創始者で現CTO、Steve Turner氏の挨拶を頂きました。
その場にいたひとは聞いたと思いますが、PacBioはこれからも進化します。 
リード長ももっと長くなります。
新酵素の開発、新ケミストリーの開発、Movie開始時期の改良、ソフトウェアの改良・・・。

そこで良く聞かれるのが、「リードは長くなっても、精度は低いままじゃあちょっと・・・」という声。

リード単位の精度はもっと上がるのか? 
リファレンスにアラインしたとき、塩基がリファレンスと異なる(InDelも含め)率が約15%
これが劇的に改善されるか?
本音はというと、ちょっと・・・

そこで、バイオインフォマティクスでエラー率を低くする方法がたくさん開発されているのです。

7月5日のブログにも書きましたが、エラーコレクションといえば、Nature Biotecで発表されたpacBioToCA が有名?でしょうか。 最近のセミナーでも、さかんにこれを使った発表がされています。

そんな中、先週別のアルゴリズムが論文化されました。 これはRNA-Seq用にも適したエラーコレクションアルゴリズムだそうです。

Au et al.,  Improving PacBio Long Read Accuracy by Short Read Alignment
PLoS One 7(10), e46679.

Homopolymer Compression という方法で例えば、GCGAAAATA => GCGATA
に情報を圧縮します。 Pylosequencerなどでのエラーコレクションに使われる手法で、これをPacBioにも応用しています。
情報量は意外と失われないそうで、私も近いうち試してみたくなりました。
 

pacBioToCAと同様、ショートリードでPacのロングリードを「修正」するアルゴリズムですが、Mammalianのトランスクリプトーム用に開発されただけあって、メモリー消費やラン時間に工夫がされているようです。 pacBioToCAは処理時間が長い、LSCよりメモリを食う、と。
LSCというのがこのアルゴリズムの名前です。

軽いなら是非試してみたい!
ツールも公開されていますので。
そのうちこのツールを使用した発表も、学会などで多く見られるようになるでしょう。

そういえば今年の7月くらいにPacBio本社で、cDNA解析のPacでの可能性についてディスカッションをしたとき、マッピングの方法と合わせて、エラーコレクションの話をしたことを思い出しました。 
ちなみにPac社内では、「error correcton」という言葉を嫌うひともいます。
correction = 修正です。 修正するってことは、もとが間違っているということ。 なるほど。
ですので、私は気を利かせて「improve accuracy = 精度の向上」と言うようにしています。
ま、単なる言葉ですけど。

ショートリードでロングリードを「修正」する方法は目新しくなくなりましたが、「修正」すること無しにAccuracyを良くする方法も出てきています。
それがQuiverというツールです。 
これに関してはまた今度。

最後に、精度には2つの意味があります。
リード単位の精度とマッピング精度です!

リード単位の精度ではショートリードの方がずっと良い。 これは認める。 
では、リファレンスやゲノムにマッピングさせたときの、真の場所に正しくマッピングされるという意味での精度は、どうか?
Yes! ロングリードであればある程、良い、でしょう。

本当はリード一本で精度がphred 40 以上くらいあって、かつ数十キロ以上読めれば(+低コストで)、向かうところ敵無しなんでしょうが。
まだ無理かなあ。