パックマンの挑戦　－　PacBioシークエンサー: 6月 2012

学生時代を思い出してください。　有機生物学、これは覚えることが多くて大変でした。
教科書に出てくる亀の甲羅をノートいっぱいに描いて、ひたすら暗記したものです。
私はそのときアメリカの大学で勉強していて、先生はイギリス人で発音がいわゆる正統派のEnglishでかつ早口。　聞き取るのにとても苦労したのを思い出します。

さて、その中でも好きなのはPolyssacharide、多糖類です。　イギリス人教授の「ポリサッカライド」という発音が、とても印象に残ったのです。　書くときはよく綴りを間違えましたけど。

そんなPolyssacharide、あるバクテリアによって分解されることが知られています。
Verrucomicrobiaとう門のバクテリアです。
このバクテリアのゲノムを読んで、中の遺伝子を解析したのがこの論文です。

Martinez-Garcia et al., (2012) Capturing single cell genomes of active polysaccharide degraders: an unexpected contribution of Verrucomicrobia. PLoS.One. 7, e35314.

Laminarin

	(C₆H₁₀O₅)_x

という多糖類の仲間があります。　海藻に多く含まれ、特にコンブの質量の４０％くらいを占めるそうです。　別名βグルカン。
このLaminarinを分解するバクテリアをとるため、4μMの蛍光付きLaminarinを食わせて、12 ~ 120 分後に蛍光がついた細胞（バクテリア）を回収したそうです（fluorescence-activated cell sorting）。
次に、細胞内のゲノムを、whole genome displacement amplificationという方法で増幅して、1細胞ごとのゲノムを読めるまでに量を増やし、同時に菌種を分類するために16S配列（rRNA遺伝子）をPCRで増やしました。

16S配列でゲノムの種類（バクテリアの種類）を門のレベルで分類すると、Laminarin分解に寄与したバクテリアは、ほとんど（90%以上）が Verrucomicrobiaでした（n=121）。

では、このバクテリアのゲノムの中はどうなっているのか？
このゲノム解読に、Illumina GAIIx＋PacBio RS のシーケンサーが使用されています！
サンプルDNAは、このバクテリアゲノムです。　1細胞単位のゲノムを読むために、ゲノムDNAを先の方法で増幅して、Single-Cell Amplified Genomic （SAG）DNAを読んでいます。

M&Mを読んでみると、Illumina GAIIxの方はインサートサイズ320－540bpのPaired-endで、リード長は110bp、1レーンに3ライブラリーずつ、5レーン流しています。

PacBio RSの方は、先ず、SAG DNAをCovaris を使って2 kbに断片化しています。
精製した1 μgの2 kb DNA断片をもとにライブラリーを作成し、その後はPacのプロトコル通りに進めています。

Pacの場合、SMRT Cell ごとに出力されるリード数にばらつきがあります。　これはどうして？　って思う方もいるでしょう。　
ばらつきの原因はいろいろあるのです。　これだけで長い話になるので別の時にします。
ま、とにかく、SMRT Cellから出てくるリード数は結構ばらつきがあるので、サンプルあたり、10Xのカバレージを得るために、6個から20個のCellを使ったそうです。

Movieは40分x2回
フィルタリング条件として、リード長 > 100bp かつ Read Quality > 0.85　（リード長です。サブリードではありません。ちなみにRQ > 0.85 は少し厳しめですがこのくらいが良いのかなあ、って値です。）

こうして得た配列をもとにアセンブルには、

Velvetを使ってKmerを変えながらIlluminaデータからContigを作り、
PacBioのハイブリッドアセンブリツール「AHA」を使って、ContigどうしをPacのロングリードでScaffolding
Sequencher v4.10.1（Gene Codes社：http://genecodes.com/）というソフトを使って、さらにアセンブル
Contig、Scaffoldの末端を精査

で、結果

一応、5サンプルを読んで、32～88%のゲノムリカバリー　（ばらつき多い？）
Contigは700～1400本　（んー、まだ多いかな。数本を期待。でもゲノムフィニッシュが目的では無いんですよね。ゲノムに含まれる遺伝子の種類と数を測るのが本研究の目的だそうです。）
ちなみに最長Contigは、116,000 bp

ドラフト配列はGenbankにSubmitされているそうです。

で、これらVerrucomicrobiaのゲノム解析でわかったことは、laminarinase, xylanaseなどのpolysaccharide分解酵素の遺伝子、Putativeなものも含めて様々なBiopolymerを分解する酵素遺伝子の配列を、他のバクテリアより多く含んでいた、ということ。

正直言って、「Pac使って良かったー！」的な論文ではありません。
多分、IlluminaのリードだけではScaffoldingが難しくて、そこにPacの出る幕があったのでしょう。
裏方で頑張った、って感じです。

今はC2ケミストリー、で出力も上がっていますから、もっと長いContigができるかも。

先週は大忙しでした。
火～木曜の3日間、PacBio Bio-Informatics Workshop と称して、日本と韓国のユーザー、台湾、香港、韓国の代理店、PacBio Asia Office (シンガポール) のメンバー、それにPacBio米国本社からのトレーナー、計30名余りを招いて、勉強会を開きました。

PacBioにとっても、初めての試みでしたが、大成功？に終わって良かったです。
どんなワークショップにするか、テーマはどうするか、時期はいつが良いか等々、
2か月前から東京と、Menlo Park（Pac本社があるところ）にて打ち合わせ、あとはWeb会議などで詰めていきました。
結構アメリカ人的なトレーナーの進め方を、「ゆっくり話す、ひとの話を遮らない」など、日本人向けに修正しました。
私もアメリカでトレーニングを受けたのですが、結構みんな質問すると途中から議論っぽくなってくるんですよね。　で、時間が押してくる。　日本ではありえない、って言いました。　言葉の壁もあるので。

やった内容は
1日目：PacBioのデータとソフトウェアの概要・特徴、コマンドラインツールの使い方、Hands-on
2日目：de novo Assembly とエラーコレクション、塩基修飾、Hands-on
3日目：Target Sequencing, cDNA Sequencing,

このような感じで進めました。　
英語で行われるので、連続45分以上やらないようにし、各セッション後に休憩時間を15分くらい設けて質問やディスカッションタイムを多く取りました。　
これが良かった！
皆さん、Pacのメンバーと直接話せる機会をフルに生かしていました。

ランチやディナー、飲み物の用意、ネットワーク環境の準備など、裏方で働いてくださった方にも感謝しています！

ワークショップで行った内容も、OKなものはここで公開していこうと思います。

パックマンの挑戦　－　PacBioシークエンサー

2012年6月17日日曜日

論文：Capturing Single Cell Genome

2012年6月11日月曜日

PacBio Bio-Infomatics Workshop in Tokyo