2014年6月23日月曜日

PacBio アメリカ東海岸ユーザーミーティングから

私は参加していませんが、メリーランド大学にて先週、東海岸ユーザーミーティングがありました。
毎年アメリカでは、東海岸と西海岸で1回ずつ、ユーザーミーティングを行っています。
今年の東海岸はとても盛り上がったそうです!

あの有名なBio.IT World というE-雑誌にその様子が載っています。

PacBio Users Share New Tools and Applications at Meeting in Baltimore

今日はこの記事からの翻訳&引用です。 訳が変なこともあるので、英語に自信があるひとは上のリンクを直接読んでくださいね。

-----------------------------------------------------------------------
スクラッチからホールゲノムへ

SMRT シークエンスによって一番大きく進歩した分野は何といってもデノボアセンブリでしょう。
「一年前の論文ではまだ、PacBioを使ってのデノボアセンブリのメソッドが、テーマに書かれていました。 現在は、実際にたくさんの成果が出てきています」
と、Business Development部長のLuke Hickeyは言います。

ショートリードテクノロジーはほとんどがリファレンスゲノムの配列に影響するのに対し、ロングリードはスクラッチからのゲノム再構成をとても楽にします。
メリーランド大学のLuke Tallon氏は、E.coliゲノムを、ギャップの無い完全なContigを完成させるために必要とされる最低ロングリード長は、5Kbから7キロKbであることを見つけました。
この長さは今のPacBio最新試薬をもってすれば何でもありません。
リードの半分は10Kbを出力するからです。
デノボアセンブリは、構造変異検出に必須です。これはリファレンスに頼るアセンブリ方法ではできません。

Tallon氏らのグループは、NCBIのGenbankに登録されている疾患・治療に関係する微生物ゲノムの再解析を、PacBioを使って読んでいます。
最初に読んだStaphylococcus aureus(黄色ブドウ球菌)50サンプルでは、彼らは32のサンプルについて1本のContigにすることができ、ゲノム解析を一層簡単に進めることができました。
彼らは現在、550種類の異なる微生物ゲノムを解読するプロジェクトを進行中です。

Tallon氏らの仕事は、微生物学者の仕事を楽にするかもしれませんが、PacBioシークエンサーをもっとアクティブに使っているユーザもいます。
国立ヒトゲノム研究所のSean Conlan氏は、carbapenem-resistant Klebsiella pneumoniae(カルバペネム系抗生物質耐性肺炎桿菌)のアウトブレイク研究について報告しました。
他のアウトブレイク同様、これも発生源や感染経路が複雑で、数十種類のPlasmidを持ち、うち2つはcarbapenem-resistantの遺伝子を持つ、という厄介ものでした。

異なる患者から単離した、バクテリアとPlasmidの関係性をトレースするため、染色体とPlasmidのキーとなる配列部位を確実に読むため、十分なカバレッジを担保しつつ、大量のサンプルを読まなければいけませんでした。
PacBioシークエンサーは、これらPlasmidと染色体ゲノムを完全に読み終え、アウトブレイクをトレースするのに十分なデータを提供しました。
現在は、ショートリード、ターゲットPCR、オプティカルマッピング、といった他の技術も取り入れ、データの精査をしているところです。

Conlan氏は、今までのリファレンス配列を覆すかも知れないと信じています。 特に抗生物質耐性のPlasmidにある繰り返し配列など、複雑な配列についてです。
「この精度のデータを手に入れたなら、あなたの見ているリファレンスは間違っているかもしれない、とあなたは疑うことでしょう」


ヒトゲノムへ

バクテリアやアーキアのようなスモールサイズなHaploidゲノムアセンブリは、もちろんPacBioの得意とするところですが、私たちのユーザはもっと複雑な生物のゲノムシークエンスに興味をシフトしています。
これまでも、ハエ、ホウレンソウ、ヤギ、そしてヒトを読み、そのデータも公開されてきました。
ヒトゲノムのデノボアセンブリは、これまで普通に行われてきたRiference-guidedのリシークエンスよりも、得られる情報は多いはずです。
コールドスプリングハーバー研究所の遺伝学者、Richard McCombie氏曰く、「ヒトゲノムのリシークエンスは、3,000ドルかければIllluminaマシンでホールゲノムを読めてしまう。その点においてはすばらしい。しかしIlluminaではいくつかの構造変異情報は失われるし、いくつかのゲノム箇所は読めない」

PacBioシークエンサーによるヒトゲノムプロジェクトで興味をそそるものと言えば、ワシントン大学ゲノム研究所で行われているものでしょう。 (このブログでも以前登場)
妊娠時に精子のゲノムだけが胚に移ったという、非常に稀な、Haploidタイプのヒトゲノムです。
このゲノムをPacBioで大量に読んだ結果、今のリファレンスで粗く読まれている場所について、たくさんの改善が見られました。
このサンプルのアセンブリ結果は、N50が4Mbpに達し、この数字は今まで読まれたヒトゲノムのなかで最長の長さです。
ワシントン大学のTina Graves-Lindsay氏は、このアセンブリ結果をリファレンス配列に反映させる仕事の最中であると発表しました。
Haploidサンプルの情報は、Diploidゲノムではアレル間の複雑な構造多型のためにアセンブルがあいまいになってしまうような箇所でも、正確に配列を決定することができます。
PacBioで読んだデータに加え、彼らは読みにくい箇所をカバーしているBACクローンライブラリを作り、PacBioシークエンサーで読んでいます。
Graves-Lindsay氏曰く、「ほとんどのクローンは実際には最終的にリファレンスの中に含まれます。ですのでもしその部位がリファレンスの中できたなくても、最後には読んだ配列で修正できるのです」
ロングリードは、すでにSRGAP2やIGHといった遺伝子の配列をはっきりさせています。
「私たちのゴールは、ゲノム全体のsingle-allelic representationを完成させることです」
これは、あいまいなゲノム構造配列が最小限なリファレンス配列を得ることで可能になるでしょう。


--------------と、ここまで来て翻訳が疲れたので、続きは抜粋、サマリー(笑)-------------

以下は私の文章ですので、本文を見たいひとは英文を参照!


ベストなツールを

いろいろありますがサイズセレクションには今のところBlue Pippinですね。
アセンブリにはHGAPとPB-Jelly
構造変異によってアセンブリエラーが起こった場所を検出するPB-Honey
Diploidアセンブリには、FALCONベータ版
この辺は今までと変わりません。

HGAPというのは最初のエラー補正でBLASRを使います。
これがとてつもなく計算資源を消費する。
National Biodefense Analysis and Countermeasures CenterのAdam Phillippy氏のチームは、これに変わるツールを開発しました。
BLASRを使ったHGAPは、ハエゲノムの場合、全体としてのアセンブリは成功するのですが、600,000 CPU Hoursという、HGAP全体の90%の時間を占有していました。
そこで彼らが試したのは、1990年代に開発された、AltaVista検索エンジンに使われているアルゴリズム。
その名もMHAP
計算時間は600,000 CPU Hoursから、1,000 CPU Hoursに短縮され、ハエゲノムサイズならアマゾンクラウドで実行してもわずか300ドル程度で可能だそうです。
バクテリア程度のゲノムならデスクトップPCでもできるとか!
これが本当ならすごいことですね。
でもしばらくは、アルゴリズムの改善、いろんな研究者による精度の検証が行われるでしょう。

MHAPについてはトレースしています。


それでは、また