2013年3月22日金曜日

Pacでヒトゲノム

近い将来、ヒトゲノムを診断に使う日が来るでしょう。 実際私も、23andMeで自分のSNP解析をしてみたことがありますが、お金とチャンスがあれば是非Whole Genomeを読んでみたいものです。
23andMeのサービスはとても手軽なんですが、参考にしているデータベースが白人なんですよねえ。
え、結果ですか?
いたって健康。 特に遺伝的な異常無し。 でした。
ワーファリンによる副作用が平均より1.6倍高いかも?くらいなことが唯一気をつけるべき項目でした。

そんな来るべきゲノム診断に向けて、シークエンスメーカーはビジネスチャンスを狙っているわけです。
前回、Pac CEOのインタビューの中、クリニカルな応用を考えているユーザもいる、と書きました。
今日はそのユーザの話です。


2009年から2012年7月までPacBioのChief Scientific Officer を務め、また2011年8月からMount Sinai School of Medicineのチェアーを務めるEric Schadt氏。
彼はPacBioをクリニカルに応用できないかと追求するひとりです。
AGBTで講演内容です。
ビデオのリンクはここ
講演の後半からPacBioについての話が始まります。



彼らは、ヒトゲノム(NA12878)を、Illumia HiSeq、Roche454、PacBio RSを使ってそれぞれ30x、15x、10x+のリードを得ました。
10xのカバレッジを得るのに使用したPacBioリードは1200万本。 単純計算で360 ~ 400 SMRT Cell 使った計算になります。あるいはそれ以上?
平均リード長は4,066 bp、平均サブリード長は2,766 bp、95thパーセンタイルは11,630 bpだったそうです。
「クリニカルな応用に関しては、Pacのロングリードはリピート配列に対してアドバンテージがあります。」 
20くらいの遺伝子に存在するリピート配列が、重要な疾患マーカーとして既知だそうですが、それらはショートリードで読むことは不可能です。 

しかし彼らのPacBio10xデータによると、例えば4番染色体のHuntingtin 遺伝子ではCAGリピートとCGGリピートを同じシングルリードが12本もカバーし、また精神疾患に深く関与することが知られている19番染色体のカルシウムチャネルα1サブユニット遺伝子CACNA1Aでは、1キロほど離れた2つのリピート(CAG)nと(ACC)nを10本~15本のシングルリードがカバーしていました。


このほかに、3塩基リピートについて言えば、少なくとも50リピート以上(つまり150bp以上のリピート)の、約10,000箇所のリピートのうち84%を、今回の10xのデータでカバーできました。
これは他のテクノロジーでは真似出来ないことです!

と、ここまできて、冷静に考えると、「全ゲノムを10xで読めばいくらかかる?」
という疑問が湧いてくるでしょう。
疾患の診断に、ヒト全ゲノムを何百Cellも使って読むのは(今はまだ)“コスパ”悪すぎですね。
現実的には、重要遺伝子またはゲノムの場所だけにターゲットを絞って一分子で読む、ことになるでしょう。
この講演は、PacBioのロングリードを使えば今まで見えてこなかったヒトゲノムの構造が(一部)わかってくる、というものです。


Schadt氏らは現在、Illumina/PacBioのハイブリッドExomeテストを試みています。 これはPacBioでしか読めないような、5Mbpの箇所のキャプチャーシークエンスを、今までのショートリードExomeに組み合わせるような手法です。
個人的にはキャプチャーしてくるところが特に興味があります。
いろいろ(ハイブリや酵素処理など)手法はあるようですが、ロングリード用にExomeキャプチャープロトコルが早く確立されれば良いですね。
願わくばExome以外の特定ゲノムのキャプチャーも。


2013年3月18日月曜日

PacBio CEO インタビュー

PacBioの今のCEOといえば、伝説の男、Mike Hunkapiller (ハンカピラー、「ピ」にアクセント)
シーケンスビジネスの重鎮です。
アプライドバイオシステム(ABI)社で21年間を過ごし、1995年から2004年までは社長兼ゼネラルマネージャーでした。 
その後ベンチャーキャピタルを通じてPacBioを資金的にサポートし、2012年からPacBioの社長兼CEOです。 ゲノムプロジェクトで一世を風靡した、Celera Genomics社の創始者のひとりでもあるんですよ。

そんな彼ですが、喋ると意外に気さくな感じ。
一緒に記念撮影パチリ!も応じてくれました。

彼のインタビューがYou Tubeに載ってます。
http://www.youtube.com/watch?feature=player_embedded&v=kgz5K3evWtw


DNAシークエンサーの革命はSanger法から始まります。
長く、とても正確に読めるこの方法は、今でも広く使われていますね。 私もゲル板で読んでいたので、ガラスの中にゲルを入れて固めたあと、あの、コームを抜くときの快感が忘れられません! 
キャピラリーも、ゲル充填の後の、気泡を抜くのがあったなあ。

と、キャピラリー全盛でABIの独占状態が続くなか、いわゆる「次世代」シークエンサーが現れました。 これはSangerよりもリード長が短い、という欠点があるものの、スループットが膨大でした。
このあたりから、シークエンスを“塩基あたりコスト”で測って、「次世代の方がSangerよりお得」のような空気が出来てきます。

例え数十塩基しか読めなくても、数千万、数億本もリードが出てくる。 これは今までのシークエンサーの使い方を大きく変えました。
タグカウンティングです。
SAGE、RNA-Seq、ChIP-Seqなど、リードの本数を利用してその遺伝子やゲノム部位のコピー数や発現量、修飾などを解析していく方法です。
今までマイクロアレイの独壇場だったフィールドにシークエンサーが使われるようになったのです。

しかしこれらの解析はいずれも、リファレンス配列が必要です。
既に読まれているゲノム配列に対してマッピングし、そこからほかのサンプルと比較してどこが違うが見つけるのです。
Exome-SeqでのSNP検出なんかもそうですね。
そういうリファレンス配列は、これまたSangerで読まれて決定されていたりします(非モデル生物などでは最近はNGSも積極的に使われていますが)。

そういう参照配列がなく、未知の配列を読まなければならない(de novo )とき、確かにショートリードを使ったペアエンド技術やメイトペア技術も貢献しますが、限界もあります。
一本のリードで出来るだけ長く読むことが今も必要とされている」のです。

現在、10kb以上連続して読めるシークエンサーは、PacBio以外に存在しません。
その長さもやがて倍になり、スループットも向上します。
長く読めるという価値が今以上に大きくなれば、相対的にコストは下がるでしょう。
これがPacBioの考え方です。

CEOのインタビューに戻ります。
ライバルのIllumina社、LifeTech社は、シークエンサーの診断目的利用を視野に入れて挑戦を試みているがPacBioはどのような目標を持っているか?
という質問です。
Mike曰く、Pacのユーザの中には、クリニカルユースを目指して研究しているところもある。
勿論カウンティングベースの診断にはスループットが高いショートリードが向いている。 しかし長い領域のDNAを見なければならない分野、リピートの数が数kbに及ぶときや、HLAタイピングなど、ロングリードが必要な診断もある。 まだ研究段階だが、いずれ診断に応用できる日が来ると思う。

私も、シークエンサーの目指すべきひとつの大きな道は、診断・クリニカルユースだと思います。
Agree !

それには超えるべきいろんな壁があると思いますけどね。 挑戦です。

2013年3月15日金曜日

もうショートリードはいらない?

私の話し方が、松岡修造に似ているそうです。(良い意味で?)
ある方から言われて、何人かに「そう?似てる?」って聞いたら「うん!」という答えが。
喜んでいいのかなあ・・・。 少し複雑。
暑苦しいプレゼンは嫌だ。


まあ、それはそれとして、タイトルに「もうショートリードはいらない?」
と書きましたが、バクテリアサイズのゲノムアセンブリには、いらないかも? という意味です。

昨年(2012年)は、ロングリードの精度を上げるためのエラーコレクションという手法(pacBioToCAとLCS)が少し流行りました。このブログでも何度か取り上げたので、ご存知のかたも多いと思います。 

昨年後半くらいから、ショートリードを使わずにエラーコレクションをする方法がいろいろ開発されて、PacBioではHGApという手法が作られました。
Hierarchical Genome Assembly processing の略で、開発したのは元A社のJason Chin。

Pacのリード(サブリード)は、長さと数をプロットすると、このような感じになります。形に注目!

これはセル1個ではないので、リードの本数は気にしないでください。 1個でも8個でも、リードの長さの分布はこのような形になります。
長いリードはあまり多くないですね。
でも、アセンブリに有利なのは長いリードです。
そこで、超長いリード(例えば6kb以上)だけをアセンブリに使用し、それ以下の長さのリードは、超ロングリードのエラー補正に使おう、というのがHGApの考え方です。

超ロングリード(Seedリード)に対し、それ以下の長さのリードをマッピングして、多数決のような感じでコンセンサスを作ります。 
そうすると結果的に精度が向上した超ロングリードができる(Seedを6kbにしたときは精度の高い6kbができる)わけです。
知っての通り、シングルリードの精度は約85%、それがHGApのあとは、QV45以上になる超ロングリードも得られるのです。
このような、QV45の6kb超リードを20x~30xくらい得て、Celera Assembler等でアセンブリすれば、数MbサイズのバクテリアゲノムであればPacのみでFinishできる!
というわけです。

実際はリピートの存在などにより、完全に1本になるとは限りませんが、他のどのテクノロジーよりもコスパが良い、と言えると思います。

さて、今月フロリダで行われたAGBTで、PacBioのCSO、Korlach氏の講演がとても良かったので、紹介しようと思います。

動画はこちらから見れますので、是非どうぞ。
前半はHGApの話、後半でその素晴らしい応用例が出てきます。

私が一番いいなと思ったのは、百日咳菌のゲノムアセンブリのところ。
百日咳の原因となるBordetella pertussisのゲノムは、今年(2013年)の初めまでに2株読まれていました。
2003年にサンガー研で行われた、130,000以上のサンガーリードをアセンブリした例(Parkhil et al, Nature Genetics 35: 32-40)と、2011年に33万本の454リードと1万本以上のサンガーリードでアセンブリした例(Zhang et al, J Bacteriology 193: 4017-4018)だけです。ちなみにゲノムサイズは4Mb程です。
どちらも一大プロジェクトです。

PacBioでは、オランダのグループとの協力で、このほか9つの株を1週間足らずで読んでしまいました。 
1株あたり使用したSMRT Cellの数は4個から8個、アセンブラーはHGAP+CAのパイプラインです。
実際は1台のシークエンサーだと、ライブラリ作成に2日、8個Cellのランに1日、解析に1日、というのが現実的でしょう。
ライブラリ作成を同時にすれば時間短縮はできるでしょうね。

この菌は、リピートやゲノムの複雑さで知られており、実際に読んだゲノムから複雑な構造変異があることもわかりました。

他の菌でも、例えば新規Plasmidを発見したり、遺伝子の新規Horizontal Transferを検出したり、と、昨年から次々と結果を出しています。
そのうち論文になることでしょう。

論文といえば、HGApについても近々Publishされると思います。
私も数Mbサイズのゲノムアセンブリには、まず、これを使います。
やろうと思えば数十Mbサイズまでいけます。
Pacによると、将来的には高等生物ゲノムでもできるようにしたいとのことです。

それにはスループットが・・・という声が聞こえてきそうですが、ご安心ください。
スループットは向上します。
光学系と、サイズセレクション(サンプル調整時)と、酵素と、蛍光
この4つが今年のキーになるでしょう。