パックマンの挑戦　－　PacBioシークエンサー: 論文：Capturing Single Cell Genome

学生時代を思い出してください。　有機生物学、これは覚えることが多くて大変でした。
教科書に出てくる亀の甲羅をノートいっぱいに描いて、ひたすら暗記したものです。
私はそのときアメリカの大学で勉強していて、先生はイギリス人で発音がいわゆる正統派のEnglishでかつ早口。　聞き取るのにとても苦労したのを思い出します。

さて、その中でも好きなのはPolyssacharide、多糖類です。　イギリス人教授の「ポリサッカライド」という発音が、とても印象に残ったのです。　書くときはよく綴りを間違えましたけど。

そんなPolyssacharide、あるバクテリアによって分解されることが知られています。
Verrucomicrobiaとう門のバクテリアです。
このバクテリアのゲノムを読んで、中の遺伝子を解析したのがこの論文です。

Martinez-Garcia et al., (2012) Capturing single cell genomes of active polysaccharide degraders: an unexpected contribution of Verrucomicrobia. PLoS.One. 7, e35314.

Laminarin

	(C₆H₁₀O₅)_x

という多糖類の仲間があります。　海藻に多く含まれ、特にコンブの質量の４０％くらいを占めるそうです。　別名βグルカン。
このLaminarinを分解するバクテリアをとるため、4μMの蛍光付きLaminarinを食わせて、12 ~ 120 分後に蛍光がついた細胞（バクテリア）を回収したそうです（fluorescence-activated cell sorting）。
次に、細胞内のゲノムを、whole genome displacement amplificationという方法で増幅して、1細胞ごとのゲノムを読めるまでに量を増やし、同時に菌種を分類するために16S配列（rRNA遺伝子）をPCRで増やしました。

16S配列でゲノムの種類（バクテリアの種類）を門のレベルで分類すると、Laminarin分解に寄与したバクテリアは、ほとんど（90%以上）が Verrucomicrobiaでした（n=121）。

では、このバクテリアのゲノムの中はどうなっているのか？
このゲノム解読に、Illumina GAIIx＋PacBio RS のシーケンサーが使用されています！
サンプルDNAは、このバクテリアゲノムです。　1細胞単位のゲノムを読むために、ゲノムDNAを先の方法で増幅して、Single-Cell Amplified Genomic （SAG）DNAを読んでいます。

M&Mを読んでみると、Illumina GAIIxの方はインサートサイズ320－540bpのPaired-endで、リード長は110bp、1レーンに3ライブラリーずつ、5レーン流しています。

PacBio RSの方は、先ず、SAG DNAをCovaris を使って2 kbに断片化しています。
精製した1 μgの2 kb DNA断片をもとにライブラリーを作成し、その後はPacのプロトコル通りに進めています。

Pacの場合、SMRT Cell ごとに出力されるリード数にばらつきがあります。　これはどうして？　って思う方もいるでしょう。　
ばらつきの原因はいろいろあるのです。　これだけで長い話になるので別の時にします。
ま、とにかく、SMRT Cellから出てくるリード数は結構ばらつきがあるので、サンプルあたり、10Xのカバレージを得るために、6個から20個のCellを使ったそうです。

Movieは40分x2回
フィルタリング条件として、リード長 > 100bp かつ Read Quality > 0.85　（リード長です。サブリードではありません。ちなみにRQ > 0.85 は少し厳しめですがこのくらいが良いのかなあ、って値です。）

こうして得た配列をもとにアセンブルには、

Velvetを使ってKmerを変えながらIlluminaデータからContigを作り、
PacBioのハイブリッドアセンブリツール「AHA」を使って、ContigどうしをPacのロングリードでScaffolding
Sequencher v4.10.1（Gene Codes社：http://genecodes.com/）というソフトを使って、さらにアセンブル
Contig、Scaffoldの末端を精査

で、結果

一応、5サンプルを読んで、32～88%のゲノムリカバリー　（ばらつき多い？）
Contigは700～1400本　（んー、まだ多いかな。数本を期待。でもゲノムフィニッシュが目的では無いんですよね。ゲノムに含まれる遺伝子の種類と数を測るのが本研究の目的だそうです。）
ちなみに最長Contigは、116,000 bp

ドラフト配列はGenbankにSubmitされているそうです。

で、これらVerrucomicrobiaのゲノム解析でわかったことは、laminarinase, xylanaseなどのpolysaccharide分解酵素の遺伝子、Putativeなものも含めて様々なBiopolymerを分解する酵素遺伝子の配列を、他のバクテリアより多く含んでいた、ということ。

正直言って、「Pac使って良かったー！」的な論文ではありません。
多分、IlluminaのリードだけではScaffoldingが難しくて、そこにPacの出る幕があったのでしょう。
裏方で頑張った、って感じです。

今はC2ケミストリー、で出力も上がっていますから、もっと長いContigができるかも。

パックマンの挑戦　－　PacBioシークエンサー

2012年6月17日日曜日

論文：Capturing Single Cell Genome

0 件のコメント:

コメントを投稿