2015年4月14日火曜日

ターゲットリシークエンス 続き 一般論

2回にわたって、PacBioでのターゲットリシークエンスについて書いてきましたが、今日はPacBio関係ではありません
Pacは次回までお休み


ターゲットリシークエンスをした後の解析のひとつが、変異検出です。
そういえば、この「パックマンの挑戦」ブログを始める前に書いていた、「ショートリードの憂鬱」ブログでは、良くこの変異検出について書いたものでした。

見返したところ、2011年7月に、Exome 解析 non-synonymous SNVを見つけた後は・・・というタイトルで、SNV(SNP)を見つけた後に行なう解析あれこれ、みたいなことを書いていました。
今から4年前、フリーツールを駆使して、見つけたSNPをフィルタリングしたり、意味付けしたり

人類遺伝学会などでは毎年、ヒトゲノムリシークエンス、エキソームシークエンス、など、NGS(主にショートリードだけど)を使用した大規模プロジェクトの発表を聞きます。
特にアメリカは、やたらヒトゲノム読んでいますね。大きな病院を拠点にして、周辺の大学や病院と、患者ゲノム情報を共有する、、、なんて話を3年前のASHGでも聞きました。

遺伝子検査ビジネス大手、deCODE社やAmbry Genomics社も、やはりヒトゲノム、またはエキソームを読んで、検出したSNVを、データベースと照らし合わせて意味付けをしています

そういう会社、大学、プロジェクトは大抵、解析パイプラインが決まっています
どのゲノムリファレンスを使うか、マッパーは何を使うか、変異検出ツールは何をつかうか・・・等
逆に決まっていないと、後でデータ間比較をしたいときに整合性がとれない

例えば、BWAでHG19にマップしてGATKで変異コールして・・・という流れでも、途中のfastqフィルタリングやマッピングパラメータ、冗長性除去の有無など、いろいろ決めなければいけない項目はあるはずです

さて、決められたルールに従って変異が検出されたとしましょう
この後はその変異の意味付けです

意味付け?

先の「ショートリードの憂鬱」ブログにも、いろいろSNVフィルタリングを紹介したのですが、ナレッジを使った意味付け、というのもあります

ナレッジって何でしょう。これは論文や発表、色んな種類の公開データを、人間が精査して集めたデータベースです
SRA(sequence read archive)のようなNGS配列データベースは、中身のデータ量が爆発的に増えていますが、ここではナレッジに入れないでおきます。

ナレッジのわかりやすい例は論文です。
世界最大の医学生命科学論文データベース・MEDLINEは、今や2400万件の論文を保持しているそうです(5年前くらいまでは、1400万件と言っていましたからその増加分たるや!)

論文をまとめて遺伝子同士の関係や、化合物との関係をまとめたデータベースが、実は結構価値あるんですよ。
私も前職でPathway Studioというソフトを扱っていたのでわかるんですが、遺伝子を中心にして
周辺のレギュレーターとかを検索するのが、わずか数分でできてしまうんです
残念ながらこのソフトは某大手出版会社に買収されてしまいましたが

で、そのころはマイクロアレイなどの実験の解析に、論文ナレッジデータは使われていたのですが、今や時代はNGS(と言ったらアレイやっているひとに怒られるかな? アレイはアレイで、良いところたくさんあります!)

先のようにリシークエンスをして、変異解析をしたら、VCFというフォーマットのファイルでSNVを表現すると思います。
このファイルには、SNVの場所情報が記載されている
どこの遺伝子のどこに変異があったか、がわかる

そんな遺伝子が、今わかっている遺伝子間の制御関係において、どこに位置するのか?
それはどんな機能のパスウェイに影響するのか?
変異が起こったことによって、どんなフェノタイプに関連すると示唆されるのか?

というような情報がナレッジによってわかってくるのです。

さ、前置き長くなりましたが、そういうナレッジの解析をクリック&クリック、簡便化して行うことができるソフトウェアがあります。
~Ingenuity Variant Analysis~

自社の製品の宣伝になってますが、今、市場にあるどんなソフトウェアより使いやすいしわかりやすい
Pathway Studioもここまで頑張れば良かったのに・・・ と思ってしまいました

5月29日まで無料解析キャンペーンをやっています
このチラシの裏面のチャートがわかりにくい、という方、とりあえずNGS使ってヒトでリシークエンスやっていて、VCFまで出したけど、変異の絞込みこれでいいのかなあー?ってちょっと不安に思っていて、まあアンケートに協力してやってもいいかな? 
って思っているひとなら誰でも申し込みOKです
申し込みはこちら



このソフトで使われているナレッジは、人間が実際に論文を読んで集められたもの。
すごい人海戦術です。インド人恐るべし

しかし将来は、人工知能がこういうナレッジを作るのでしょうか
2045年問題(コンピュータが人間の脳を超える日)というのがありますが、コンピュータによる論文からのナレッジ抽出は、実は前述のPathway Studioで10年前に実現されていました。
もちろん完璧ではなくミスもありました。(ああ懐かしい!ちなみにPathway Studioはロシア製)


2045年は今からちょうど30年後
30年後を待たずとも、データベース検索や、もっと言えばシークエンスデータからのフェノタイプ予測などが、人工知能で全部できる時代が、意外と早く来る予感がします。
そうなったとき、世界はどうなっているのでしょうね。

今から30年後

子供の世代の生命観は、全く予想がつきません

2015年4月11日土曜日

PacBio-LITS PacBioでターゲットリシークエンス 2

ターゲットリシークエンスの話の続きです。

Roche-NimbleGen社では、いくつかのエンリッチメントキットを用意しています。
SeqCap EZ Designs というキットをPacBioでは試しているそうです。


  • Comprehensive Cancer Design
  • Neurology Panel Design
  • Human MHC Design
などなど

先のアプリケーションノートで、紹介されている例は、Human MHCとComprehensive Cancerの2つ
このアプリケーションは新しすぎるのか、まだWebsiteにUpされていません
そのうち www.pacb.com/target から落とせるようになると思います

ま、SeqCapEZ のキットで、平均6kbのフラグメントを濃縮できた、ということはすごい!
ゲノムにアラインした様子がこちら
BRCA1遺伝子、上がPacBio、下がIlluminaのデータです
PacBioのデータは、長いのでイントロンまでカバーしているので、イントロン部分のSNVも検出しています


こちらは35kbの長さの遺伝子
あれ? カバレッジが均一でない
それは、おそらく、エンリッチのときの、PCR増幅バイアスでしょうか?

PacBioで行なうターゲットエンリッチメントは、せっかくなので、ロングリードで読むことに意味がある使い方をしないといけませんね
それにはどんな使い方があるか?

ある程度場所が既知の、Fusion Geneのところだけを読む?
数遺伝子だけに絞って、その遺伝子のSNP Phasing を調べる?
そのほかにも、アイデア次第では面白い実験が考えられそうですね。

Phasingといえば、エンリッチしてPacBioで読んだデータ、Reads Of Insertをゲノムにマップした後、Samtoolsを使ってphasingを見ることができます。
Samtoolsでそんな機能があったのか!と驚いたのですが、ここに詳しくやり方が書かれています。
このツールは、SMRT Analysisが入っているサーバで行なうことが前提です
ちょっと、Reads Of Insert mappingなどの基礎知識が必要です

とりあえず、Bamファイルやリファレンスファイル、SMRTCellデータのパスなどを指定して、シェルを流すと、数分で結果は返ってきました

たくさんのファイルが出力されますが、とりあえず表示してみたいのはprefix.0 と1の二種類のマッピングファイル
これがphasingを分けている、らしい

ちなみに私はまだエンリッチされたPacBioデータが手元になかったので、HLAのアンプリコンシークエンスをわざわざReads Of Insert マッピングして、染色体6番のHLA遺伝子近辺だけを見ました

なんか、カバレッジ深すぎ…
IGVはメモリを食うので、深すぎるカバレッジはダメ

そして phase.out ファイル
これはSNP phasingの結果らしいです
PSのところにphase set のSNPが出るはずなんだが
SNPの数が妙に少ない気がする
これはHLA-A、B、Cの遺伝子部分を増幅したアンプリコンのはず


アプリケーションデータで紹介されている、もう少したくさんの遺伝子エンリッチメントのデータでは無いので、イマイチ結果の解釈まではできませんでした
ツールが動く、ということを確認したのみ
サンプルデータで試してみたいですね

というところで今夜はおしまい


2015年4月5日日曜日

PacBio-LITS PacBioでターゲットリシークエンス 1

今日は4月5日、東京は雨が降って、せっかくの桜も散ってしまっています。
今年ほど、桜満開の時期が短いと感じたことはなかったなあ。
7月のNGS現場の会に向けて、「お花見メタゲノム」の試料採取が、全国で行なわれているみたいですね。
私のFacebookの友人も、採取の様子をいろいろアップしていまいた。
結果が楽しみです!

さて、今日は、PacBioではあまり今まで話題に出てこなかった、ターゲットリシークエンスの話

リシークエンスには大きく分けて、全ゲノムリシークエンスと、ターゲットリシークエンスの2種類あります。
前者はゲノム全体をガッツリ読む方法で、後者は例えばExomeなどのような遺伝子のエキソン領域だけを濃縮して読む方法です。
濃縮キットは(「エンリッチ」キットとも呼ばれますが)、ゲノム配列を断片化したあと、

  1. 取ってきたい(シークエンスしたい)配列領域にデザインされたプローブをハイブリして、エンリッチする方法
  2. 読みたい配列の両端にPCRプライマーを設計して、そこだけPCR増幅して、取ってくる方法
の2種類あります。
ハイブリ方式か、PCR増幅方式か

市場で良く聞く製品だと、SureSelect (Agilent社)や、SeqCap EZ (Roche社)などは、ハイブリ方式
Ion AmpliSeq(LifeTech社)は、その名の通り、Amplification(増幅)方式

これまで、どの方式、どのキットも、PacBioのロングリードには対応していませんでした。
PacBioで読むには、エンリッチした後の配列長が、そこそこ長くなくては意味が無い!
そんな中、ハイブリ方式で6kbフラグメントのターゲットエンリッチメントに成功したのが、この論文
Wang et al. BMC Genomics (2015) 16:214

Baylor College of MedicineのDr. Min Wangらは、彼らのエンリッチ方法を使って、Potocki-Lupskiシンドロームの患者に見られる、chr17p11.2の複雑な構造変異、Low Copy Repeats (LCRs; またはSegmental Duplications )のブレイクポイントを、検出することに成功しました。

そもそも何で、ゲノム全体を読まずに、特定の箇所をエンリッチして読むのか?
興味のある場所がゲノム全体の数%だったら、そこだけを濃縮(エンリッチ)してきて、PacBioの超ロングリードでがっつりカバレッジ稼いで読めば、かなり消耗品を節約できます。
ゲノム全部を読む必要が無いひとにとっては、エンリッチメントはかなり効率的な手段なのです。

彼らは、Roche NimbleGen社の、SeqCap EZ エンリッチメントキットを使用して、つまりハイブリ方式で、ターゲット領域を濃縮、PacBioで読むことに成功しています。
この方法は、PacBioのアプリケーションノートでも紹介され、今後、本格的に広まる予感がします。

通常、SeqCap EZのプローブは、200bpのフラグメントに対してハイブリするようデザインされています。
これを、彼らは、6000bpのフラグメントでも可能であることを示しました。

まず、ゲノムDNAを、G-tubeで10kbに断片化します。
その後、Blue Pippinというサイズセレクション機器を使ってゲル泳動し、5~9kbの長さのフラグメントだけを抽出します。
SeqCap EZ アダプターをつけたあと、増幅し、プローブとハイブリします。
ハイブリしなかったDNA断片(濃縮ターゲットではない部分)をWashして捨て、ハイブリした断片(濃縮ターゲット)を回収します。
もう一度、回収DNA断片を増幅し、それからSMRT Bellライブラリ作製にかかります。

このようにして、ハイブリ方式で濃縮したDNA断片から作製したライブラリを、実際にシークエンスしたデータは、かなりの数のライブラリが6kbのサイズを保っていたことを示しました。
実際にHG19ヒトゲノムリファレンスにマップしたところ、マップされたReads Of Insert(ライブラリの長さにほぼ等しい)の平均長は、4.3kb~4.7kb
これだけの長さのリードを濃縮できた例は、私は聞いたことがありません。

論文に出ているとはいえ、まだこのプロトコルはPacBio公式ではありません。
もし試してみたい方は、うまく行かない可能性も無くは無い、ということを頭に入れて、お試し下さい。

どんな遺伝子でもエンリッチできるのか?
SeqCapEZ のプロトコルにはどんな工夫があるのか?
データ解析ツールはどんなふうに使ったら良いのか?

などなど知りたいことはありますが、またフォローしていきますのでお楽しみに!



2015年4月2日木曜日

PacBio RSIII - Maestro -

皆さん、PacBio RSが大きなシークエンサーだというのは知っていますよね?
横幅2メートル、高さ1.6メートル、重さ1トン
こんな大きなシークエンサーは、今後、出てこないでしょう。

でも、アメリカのあるラボでは、特注でもっと大きなマシンを導入しているんですよ。
PacBio RSIII -Maestro- 


この機械は、3ランを同時にできる、総重量5トンのモンスターマシンです。
レーザー、カメラは普通の3倍搭載
ロボット系を調整して、同じ時間に3倍のスループットを出せるようにしています。

3ランを同時にできるということは、最高で、48 SMRT Cell = 平均10Kbのリードからなる塩基が30~40Gb出力されるということ

もはや、ヒトゲノムのデノボアセンブリもこれ一台で、1~2回のランでできてしまう!

今、アメリカで2台、このMaestroは動いています。 一箇所は、Venter博士のところです。

価格は・・・ そこそこします、が、某社の10台セットに比べれば安い安い。

日本の研究室には、サイズ的に入らないでしょうね。
残念です。







と、まあここまで来て、というか最初から?気づいていたと思いますが、
これは、ジョーク!

エイプリルフール、は、昨日だったか(笑)
でもアメリカ時間ではギリギリセーフ