2014年12月27日土曜日

Better NGS Solutions Labcab (1) PacBio RSIIによるバクテリアゲノムアセンブリ

12月27日だというのに年賀状をまだ書いていない私です。
毎年「今年こそ早く書いてしまおう!」と、10月ごろは思うのに、毎回この有様。
それほど潜在意識の中で、「いらない習慣だ」と思っているのでしょうね。
高校生のとき、年末年始の郵便配達のバイトをやって小遣いを稼いだこともあるので、年賀状にはお世話になったんですけどね。

今年の分生は、企業ブース以外にLabcabというNGS関連の合同ブースがありました。
サンプル調整からNGSメーカーまで、数社が合同で製品の紹介をする、というようなブースです。
もちろん、我がPacBio RSIIは、実機を展示というわけにはいきません。
実機展示できるIon PGMがうらやましい!

で、PacBioはポスターを展示。
主催者さんから、「分生だから初心者向けの、やさしい内容の方が受けます」とのアドバイスを頂き、2枚ポスターをつくりました。
内容的には、このブログを読んでいるひとなら「知ってるよ!そんなの」という感じ。
でも、せっかく作ったので、ここで公開します。
今日はその1枚目、PacBio RSIIによるバクテリアゲノムアセンブリ


タイトル: PacBioRS II によるバクテリアゲノムアセンブリ

<概要>
Pacific Biosciences社のDNA一分子リアルタイムシークエンサー、PacBio RSIIは、これまでのシークエンサーの常識を超える、ロングリードを出力する。次世代シークエンサーといえばリード長が数百bpのものがほとんどだが、PacBio RSIIのリード長は、数千bpにわたる。現在の最新試薬、P6-C4を使い、20kbライブラリを4時間ムービーでシークエンスした場合、平均リード長は10kbp、最長40kbpに達する。

<本文>
得意なアプリケーション
このロングリードの威力を最も発揮するアプリケーションは、デノボアセンブリである。バクテリアなどの比較的小さいゲノムサイズであれば、PacBio RSIIの1ランで出力されるリード数で、数株のゲノムを決定することができる。バクテリアゲノムの中で、リボゾームRNAオペロン配列は数kbpに及び、複数コピーのリピートを形成していることが多い。このような長いリピート配列を正確に読みとり、染色体配列を正しく再現するには、数百bpのショートリードでは難しい。PacBioの平均10kbpのロングリードを使用すれば、それまで数百のContigに分かれていたような複雑なゲノム構造でも、完全な染色体配列にすることが可能である。

ライブラリ作製のヒント
PacBio RSIIを使ったシークエンスで良いデータを出すためには、最初のDNAのクオリティチェック、DNAの断片化、ライブラリのサイズセレクション、といういくつか重要なステップがある。これらのステップを確実にすることが、成功への鍵である。
最初のステップであるDNAのクオリティについては、できるだけきれいなDNAを精製することが重要である。DNAにUVを当てない等の注意点もある。不純物のコンタミが予想される場合は、MOBIO社の精製キットなどを使用して、DNAをきれいにしておくことをお勧めする。
次に重要なステップは断片化である。できるだけ長いライブラリを作製するために、Covaris社のG-tubeを使用する。このキットは、遠心力によって、細孔を通るDNAを切断する。我々は(株)トミー精工の遠心機で最適化を行っており、20kbpのサイズに切るための条件を得ている。
ここから先は、PacBio社のキットを用いて、DNAの損傷修復、平滑末端化を行う。そして、両端にヘアピンアダプターをライゲーションする。こうしてできたSMRTbell?ライブラリは、次に、サイズセレクションというステップに移る。
サイズセレクションとは、カットオフ値以上のサイズのライブラリだけを抽出することで、短いライブラリを取り除くのが目的である。これは、Sage Science社のBlue Pippinを用いる。このBlue Pippinは4~15kbpでサイズをカットオフすることができる。
このようにして準備されたライブラリは、プライマーをアニーリングさせ、ポリメラーゼを結合させてからPacBio RS IIシークエンサーにセットし、シークエンスする。


図1 大腸菌20kbpライブラリをサイズセレクションした後、最新のP6-C4酵素で4時間シークエンスしたときの、1セルあたりのスループット。横軸がリード長、縦軸がリード数。平均リード長は10kbp、スループットは550Mbp


バイオインフォマティクス
PacBio RSIIから出力される生リードのスループットは図1の通りで、比較的短いリードが多く、長いリードは少ない(短いといっても1kbp以上はある)。これらの生リードを互いにアライメントさせ、エラーを補正していく作業は、ゲノムアセンブリの前段階に必須である。PacBioのリードに存在するエラーは、InDelがほとんどで、ランダムに存在している。そのため、リードを多数アラインさせると、エラーをほぼキャンセルさせることが可能である。
こうしてエラー補正された、精度の高いロングリードを用いてアセンブルする。アセンブラーはCelera Assemblerが推奨されている。アセンブリ後のContig配列は、再度生リードをマッピングさせてアセンブリエラーを補正していく。このとき生リードの持つパルスデータ、様々なクオリティデータなどを使用するので、最終的に得られるContig配列は、精度が99.999%に達することもある。
上記のバイオインフォマティクスツールは、PacBio社の二次解析ソフトウェア-SMRT Analysisに用意されている。マウスクリック操作またはコマンドラインで解析できる。計算機はクラスターサーバを推奨する。PacBio生データを直接アセンブリ解析できる有償ソフトウェアは未だ無い。

データの特徴
PacBio以外の次世代シークエンサーは、1分子のDNAを増幅してクラスターにした状態で読んでいる。PacBioのテクノロジーは、1分子のDNAを直接読んでいるため、増幅によるバイアスの影響を受けにくい。一般的にシークエンシングが困難だと考えられている、GCリッチあるいはATリッチな領域、高度な繰り返し配列、長いホモヌクレオチド、パリンドローム配列でも、PacBioでは一様な配列決定が可能である。

大型ゲノムへの挑戦

大きなゲノムサイズの真核生物のアセンブリにも、PacBio RSIIは用いられている。この場合、ショートリードで作られたアセンブリ結果のContigに対し、PacBioの超ロングリードを使ってギャップを埋めたり、Scaffoldを作ったりすることで、より長い連続配列を作製するのに良く使われる。最近では、PacBioデータのみでヒトゲノムサイズのアセンブリに挑戦している例も見かけるようになった。このような大型ゲノムのアセンブリの場合、最初のエラー補正のプロセスが計算処理に非常に負荷がかかる。この問題は、次々に開発されている新しいアルゴリズムに期待する。


0 件のコメント:

コメントを投稿