2014年12月28日日曜日

Better NGS Solutions Labcab (2) PacBio RSIIによるアイソフォームシークエンス

分生Labcabポスター2枚目です
何度も言いますが、初心者向けに作られた内容ですので、物足りないひともいるでしょう。
まあ、お許し下さいませ



タイトル:PacBioRS II によるアイソフォームシークエンス


<概要>
Pacific Biosciences社のDNA一分子リアルタイムシークエンサー、PacBio RSIIは、これまでのシークエンサーの常識を超える、ロングリードを出力する。これまで、次世代シークエンサーで発現遺伝子のアイソフォームを把握するには、出力されるリードが数百bpと短いため、読んだ後にアセンブルをする必要があった。しかしこの方法では、リードがある遺伝子のどのアイソフォームを読んだものかを正しく知ることは難しい。一方PacBio RSIIは、数千bpにわたるロングリードをハイスループットで出力できるため、転写産物のcDNAを、5'側から3'側まで一気に読むことができる。これにより、アセンブリ無しで、完全長のアイソフォーム配列を得ることが可能になった。

<本文>
完全長cDNAアイソフォームシークエンス
PacBioのシークエンステクノロジーは、最新試薬P6-C4で平均10Kbpのリードを出力することができる。このロングリードの威力を発揮するアプリケーションのひとつは、ロングアンプリコンシークエンスである。Alternative Splicingによって様々なアイソフォームを持つ転写産物を、完全長cDNAにした後にPacBioシークエンス用にライブラリを作製して読めば、完全な形でアイソフォームの配列を読み取ることが可能である。
既にアメリカ・スタンフォード大学やワシントン大学などでは、ヒトのトランスクリプトームを完全長cDNAで読むことで、新規な転写産物をたくさん報告している(Sharon et al. (2013) Nat Biotechnol  doi: 10.1038/nbt.2705、Au et al. (2013) PNAS  doi: 10.1038/pnas.1320101110.)。


図1.アイソフォームの完全配列から、PacBioのライブラリを作製してシークエンス

ライブラリ作製の流れ
PacBio RSIIを使ったアイソフォームシークエンスで良いデータを出すためには、完全長cDNAの作製、ライブラリのサイズセレクション、という2つの重要なステップがある。これらのステップを正確に行うことが、成功への鍵である。
最初のステップである完全長cDNAの作製には、タカラ・クロンテック社のSMARTerをお勧めしている。これは、mRNAのPoly‐A側にオリゴdTプライマーにより逆転写を行う。比較的簡便に、完全長のcDNAを得ることができる。ほかにも完全長cDNAを作製するキットは他社から販売されていて、PacBio本社のラボでもテストが行われている。
完全長cDNAが作製されたら、PCR増幅し、アンプリコンを作る。このときのPCRサイクル数は、必要最低限に抑えるのがコツである。過剰に増幅されるバンドが無く、どのサイズも一定に増えるようにサイクルを最適化する。
次に増幅したアイソフォームのアンプリコンは、サイズを分けて回収する。サイズは例えば1-2kbp、2-3kbp、3-6kbpというふうに3つに分ける。サイズを分けて回収したそれぞれのサンプルで、別々にライブラリを作製する。サイズを分ける理由は、短いライブラリと長いライブラリを混ぜてシークエンスした場合、短いライブラリが長いライブラリに比べて優先的にシークエンスされやすい、というPacBio RSIIシークエンサーのウェル独自の特徴があるためである。サイズセレクションは、ゲルで流してマニュアルで分画するか、Sage Science社のBlue PippinやELFのような自動分画装置を使用する。
ここから先は、PacBio社のキットを用いて、DNAの損傷修復、平滑末端化を行う。そして、両端にヘアピンアダプターをライゲーションする。こうしてできたSMRTbellライブラリは、プライマーをアニーリングさせ、ポリメラーゼを結合させてからPacBio RS IIシークエンサーにセットし、サイズの異なるライブラリごとに、別々のセルでシークエンスする。

バイオインフォマティクス
PacBio RSIIから出力される生リードは、最新試薬P6-C4を使った場合、平均10kbpに達する。一方、cDNAの完全長はたいてい1.5kbから長くても5kbpが普通である。一見するとPacBioのリードは長すぎるように見える。しかし完全長のcDNAを高精度に読むためには、できるだけ長いリードが出力される方が望ましい。理由を以下に示す。
図2に示すとおり、PacBioのSMRTBellライブラリは、そのダンベル型の構造によって同じ配列を何度も読むことができる。インサートが短いcDNAの場合、この箇所を何回も読むことにより、1回で読んだ場合のエラーを自ら補正することができる。PacBioの生リードは精度が86%程度であるが、エラーの多くがランダムなInDelなので、同じ分子を何度も読んだときに得られる配列を重ね合わせることで、エラーをキャンセルし、精度を99%以上に高めることが可能である。
このようにして得られた1分子DNA由来のコンセンサス配列のことを、Circular Consensus Sequence (CCS)、またはReads of Insert (ROI)と呼んでいる。
コンセンサス配列は次に、フルパスのcDNAを含むか否か、に分けられる。フルパスのcDNAは、5'側プライマーとUTR、コーディング領域、Poly-A配列、3'側プライマーを含む。確実にフルパスが読めていたものだけを抽出する。
プライマー配列とPoly-A配列をトリミングした後、同じアイソフォーム由来のコンセンサス配列をクラスタリング手法を使ってマージする。このようにしてデータの冗長性を取り除きながら、同時に完全長cDNA配列の精度を上げる。
最後に、生データが持つパルスデータなどの情報を使用して、再度配列の精度を上げる。このようなプロセスを経て、精度99%をはるかに越える、正確な完全長アイソフォーム配列が完成する。
リファレンスゲノム、遺伝子アノテーションがある場合は、アイソフォーム配列をゲノム配列にマッピングすることで新規のアイソフォーム配列を見つけることができる。
これら一連の流れ、フルパスのコンセンサス配列の抽出、クラスタリングから精度向上アルゴリズムまでは、PacBioの解析ソフトウェア-SMRT Analysisで簡便に行うことができる。

アイソフォームシークエンスの特徴
PacBioの超ロングリードによる完全長cDNAシークエンスの目的は、一分子由来のアイソフォームを完全に読みきることで、Alternative Splicingの異なるアイソフォーム配列を検出することである。最終的な出力配列からは、量的な情報(発現量の情報)は除かれている。アイソフォームごとの発現量を解析するには、ショートリードシークエンサーのデータを組み合わせるなど、工夫が必要である。
図2、1分子のcDNA全長は、PacBioのロングリードで何回も読まれる






2014年12月27日土曜日

Better NGS Solutions Labcab (1) PacBio RSIIによるバクテリアゲノムアセンブリ

12月27日だというのに年賀状をまだ書いていない私です。
毎年「今年こそ早く書いてしまおう!」と、10月ごろは思うのに、毎回この有様。
それほど潜在意識の中で、「いらない習慣だ」と思っているのでしょうね。
高校生のとき、年末年始の郵便配達のバイトをやって小遣いを稼いだこともあるので、年賀状にはお世話になったんですけどね。

今年の分生は、企業ブース以外にLabcabというNGS関連の合同ブースがありました。
サンプル調整からNGSメーカーまで、数社が合同で製品の紹介をする、というようなブースです。
もちろん、我がPacBio RSIIは、実機を展示というわけにはいきません。
実機展示できるIon PGMがうらやましい!

で、PacBioはポスターを展示。
主催者さんから、「分生だから初心者向けの、やさしい内容の方が受けます」とのアドバイスを頂き、2枚ポスターをつくりました。
内容的には、このブログを読んでいるひとなら「知ってるよ!そんなの」という感じ。
でも、せっかく作ったので、ここで公開します。
今日はその1枚目、PacBio RSIIによるバクテリアゲノムアセンブリ


タイトル: PacBioRS II によるバクテリアゲノムアセンブリ

<概要>
Pacific Biosciences社のDNA一分子リアルタイムシークエンサー、PacBio RSIIは、これまでのシークエンサーの常識を超える、ロングリードを出力する。次世代シークエンサーといえばリード長が数百bpのものがほとんどだが、PacBio RSIIのリード長は、数千bpにわたる。現在の最新試薬、P6-C4を使い、20kbライブラリを4時間ムービーでシークエンスした場合、平均リード長は10kbp、最長40kbpに達する。

<本文>
得意なアプリケーション
このロングリードの威力を最も発揮するアプリケーションは、デノボアセンブリである。バクテリアなどの比較的小さいゲノムサイズであれば、PacBio RSIIの1ランで出力されるリード数で、数株のゲノムを決定することができる。バクテリアゲノムの中で、リボゾームRNAオペロン配列は数kbpに及び、複数コピーのリピートを形成していることが多い。このような長いリピート配列を正確に読みとり、染色体配列を正しく再現するには、数百bpのショートリードでは難しい。PacBioの平均10kbpのロングリードを使用すれば、それまで数百のContigに分かれていたような複雑なゲノム構造でも、完全な染色体配列にすることが可能である。

ライブラリ作製のヒント
PacBio RSIIを使ったシークエンスで良いデータを出すためには、最初のDNAのクオリティチェック、DNAの断片化、ライブラリのサイズセレクション、といういくつか重要なステップがある。これらのステップを確実にすることが、成功への鍵である。
最初のステップであるDNAのクオリティについては、できるだけきれいなDNAを精製することが重要である。DNAにUVを当てない等の注意点もある。不純物のコンタミが予想される場合は、MOBIO社の精製キットなどを使用して、DNAをきれいにしておくことをお勧めする。
次に重要なステップは断片化である。できるだけ長いライブラリを作製するために、Covaris社のG-tubeを使用する。このキットは、遠心力によって、細孔を通るDNAを切断する。我々は(株)トミー精工の遠心機で最適化を行っており、20kbpのサイズに切るための条件を得ている。
ここから先は、PacBio社のキットを用いて、DNAの損傷修復、平滑末端化を行う。そして、両端にヘアピンアダプターをライゲーションする。こうしてできたSMRTbell?ライブラリは、次に、サイズセレクションというステップに移る。
サイズセレクションとは、カットオフ値以上のサイズのライブラリだけを抽出することで、短いライブラリを取り除くのが目的である。これは、Sage Science社のBlue Pippinを用いる。このBlue Pippinは4~15kbpでサイズをカットオフすることができる。
このようにして準備されたライブラリは、プライマーをアニーリングさせ、ポリメラーゼを結合させてからPacBio RS IIシークエンサーにセットし、シークエンスする。


図1 大腸菌20kbpライブラリをサイズセレクションした後、最新のP6-C4酵素で4時間シークエンスしたときの、1セルあたりのスループット。横軸がリード長、縦軸がリード数。平均リード長は10kbp、スループットは550Mbp


バイオインフォマティクス
PacBio RSIIから出力される生リードのスループットは図1の通りで、比較的短いリードが多く、長いリードは少ない(短いといっても1kbp以上はある)。これらの生リードを互いにアライメントさせ、エラーを補正していく作業は、ゲノムアセンブリの前段階に必須である。PacBioのリードに存在するエラーは、InDelがほとんどで、ランダムに存在している。そのため、リードを多数アラインさせると、エラーをほぼキャンセルさせることが可能である。
こうしてエラー補正された、精度の高いロングリードを用いてアセンブルする。アセンブラーはCelera Assemblerが推奨されている。アセンブリ後のContig配列は、再度生リードをマッピングさせてアセンブリエラーを補正していく。このとき生リードの持つパルスデータ、様々なクオリティデータなどを使用するので、最終的に得られるContig配列は、精度が99.999%に達することもある。
上記のバイオインフォマティクスツールは、PacBio社の二次解析ソフトウェア-SMRT Analysisに用意されている。マウスクリック操作またはコマンドラインで解析できる。計算機はクラスターサーバを推奨する。PacBio生データを直接アセンブリ解析できる有償ソフトウェアは未だ無い。

データの特徴
PacBio以外の次世代シークエンサーは、1分子のDNAを増幅してクラスターにした状態で読んでいる。PacBioのテクノロジーは、1分子のDNAを直接読んでいるため、増幅によるバイアスの影響を受けにくい。一般的にシークエンシングが困難だと考えられている、GCリッチあるいはATリッチな領域、高度な繰り返し配列、長いホモヌクレオチド、パリンドローム配列でも、PacBioでは一様な配列決定が可能である。

大型ゲノムへの挑戦

大きなゲノムサイズの真核生物のアセンブリにも、PacBio RSIIは用いられている。この場合、ショートリードで作られたアセンブリ結果のContigに対し、PacBioの超ロングリードを使ってギャップを埋めたり、Scaffoldを作ったりすることで、より長い連続配列を作製するのに良く使われる。最近では、PacBioデータのみでヒトゲノムサイズのアセンブリに挑戦している例も見かけるようになった。このような大型ゲノムのアセンブリの場合、最初のエラー補正のプロセスが計算処理に非常に負荷がかかる。この問題は、次々に開発されている新しいアルゴリズムに期待する。


2014年12月24日水曜日

日本ゲノム微生物学会、NGS現場の会、2015年もイベントが目白押し


日本ゲノム微生物学会、毎年3月に大会がありますね。
2015年は3月6日(金)~8日(日)、神戸大学・六甲第二キャンパスで行われます。
第9回日本ゲノム微生物学会年会

2012年から、PacBioでランチョンセミナーをしていますが、15年もやるつもりです!
正式に決定したらまたお知らせしますね。
(2014年12月23日現在、まだ知らせが無いのですが)

ちなみに日本ゲノム微生物学会ニュースレターVol.10が12月に発行されています。
誰でもこちらからダウンロードできるのでどうぞ。
な、なんと、表紙はPacBioでのメチローム解析例です!
2014年のゲノム微生物学会のランチョンセミナーでお話頂いた、古田先生の研究発表です。
表紙になるなんて、うれしい限り。

15年もいろいろなイベントを考えています。
特に、7月には「NGS現場の会大会」が、つくばでありますね。ここでは企業セッションをします。
その前に5月には、「国際ゲノム会議」が一ツ橋であります。ここではPacBio本社からDr. Jonas Korlachが講演します。
そして3月のゲノム微生物学会。

恒例のユーザーミーティングやらワークショップ、15年もやろうかな「PacBio現場の会」
バイオインフォマティクス系のワークショップ、もニーズはあるでしょうね。
他社さんは、セミナーやシンポジウムなど、名前は違えどわりと頻繁にやっていますので、我々も負けずに。
でも、ユーザ数が違うので、集客があるかどうか・・・ これが悩ましいところ。
開催する側は常に悩むのですよ。じつは。




2014年12月22日月曜日

PacBioでヒトゲノム構造解析

もう年末ですよね。
急に寒くなってきたり、雪が降ったり。

出張で顧客のところに行ったとき、偶然、知っている企業のひとに会うことが結構あるんです。
皆さん、年末ということで忙しそうです。
そんな中、とあるところで、今年のサンディエゴのASHGでのパーティで出会った、某企業のお偉いさんに偶然会いました。
彼は私のことを覚えていて、立ち話したのですが、彼らの新製品、実に魅力的なんです。
シークエンス解析に大きなインパクトを与えるかも知れない、でもシークエンサーではない、そんな機械です。
BioNano Genomics のIrys
またこの機械のことは書こうかと思いますが、いわゆるオプティカルマッピングとは似て非なるもの。
PacBioとの相性も良いと思いますよ。


さて、もうご存知の方もいらっしゃると思いますが、PacBioでヒトゲノムを読んだ論文がNatureから出ています。
ヒトゲノムといってもこちらはハプロイド。
どういうことかというと、受精のときに、卵由来の核が無く、精子由来の核のみが分裂、増殖していくという現象があるそうです。
この場合、46本の染色体を持つことになるけれど、普通の受精卵と異なり、2つのペアは片方のコピー、つまり遺伝的にはハプロイド。
下の図の右側
20 Nov. 2014, vol 515, Nature, p323より
我々の「One of the MUST READ Paper」は、
Chaisson MJ., et al. Resolving the complexity of the human genome using single-molecule sequencing. (2014) Nature.
リンクはこちら

彼らはCHM1ハプロイドゲノムをPacBioのP5-C3ケミストリーで40x読んで、GRCh37に存在する様々なStructural Variantを解析した。
結果、リファレンスゲノムGRCh37に存在する164個のGapのうち、50をCloseさせて、そのうち39のGapは数Kbに及ぶSTRを持っていたらしい。
Closeによって伸長されたゲノム配列は398Kb
またClose まではできなくとも、Gapの両端を伸ばすことによって伸長した配列は721kbに及んだ。

彼らは、PacBioデータでデノボアセンブルを試みたわけではない。
まずはロングリードをGRCh37のリファレンス配列にBLASRでマップして、Gapの領域周辺にマップされたリードだけに注目する。
そのGap周辺Mappedリードだけを、Celera Assemblerでローカルアセンブリ、QuiverでContig Poishingをして、精度の高いコンセンサス配列を得た
その配列を、以前、CHM1tertのBACを読んで得た配列と比較したところ、99.97%(Phred score = 37.5)の一致を得、エラーの72%はホモポリマー内のInDelだったそうな。

これまでヒトゲノムのGapのCloseができなかったのは、配列がGCリッチであったり、ATリッチであったり、またリピート配列そのものが大腸菌に毒であったり(それによってクローンができない)、はたまたリピートがとんでもなく大きかったり、そういう理由があるそうです。
でもPacBioなら、クローンを作る必要なし、GC含量によらない、ということで、ヒトゲノムの構造多型を解析するのには最適なのです。
(もちろん数100kb単位でのリピートは、さすがのPacBioも無理です。余談ですがそんな超ラージリピートの解析に、最初に紹介したBioNanoのIrysが役に立つ!)

もちろんバイオインフォマティクスは複雑。出来合いのツールは無いので、自分たちで開発しないといけません。
当然、ヒトゲノムのフロンティアを切り開いてやろう!という野望を持った研究者なら、優秀なバイオインフォマティシャンとタッグを組んでいると思います。
ツール開発、アルゴリズム開発は常に、こうした新しい技術と優秀な人材で、前進していくものですね。

この論文のラスト・オーサーである、Dr. Evan Eichlerは、今年のASHGのPacBioワークショップで講演しています。
その様子を見たいかたは、こちらからどうぞ

PacBioのリード長も伸び、スループットが増えたので、ヒトゲノムに挑戦する研究者は多いと思います。
まだまだ全ゲノムアセンブリは計算機パワーなどで大変でしょうが、リファレンス配列やショートリードのデータをうまく利用すれば、構造多型、Large InDelの解明に少しずつ開けてくると信じています。

来年、2015年は、PacBio Year !