2017年11月20日月曜日

PacBioとナノポア 違いはここだ! (2017年版)

2017年は、PacBioにとってのライバル、オックスフォード・ナノポアテクノロジーズ(以下ONT)がいよいよ本格的に市場に登場、ロングリード業界に新たな風が生まれました。
(正確には、2016年でもMinIONを購入することはできましたが、誰でも手軽に買えるようになったという意味では2017年が国内リリースの年といっても良いでしょう)

そこで聞くのが、PacBioより長いリードが出てくるとか、バクテリアアセンブリにはONTだけで十分とか、ロングリードはナノポアに席巻されるのでは?という、PacBioに否定的な意見。
一方、ナノポアのデータはまだ精度が悪い、超ロングリードはエラーだらけ、ノートPCではランはできるけど解析はできない、というONTに否定的な意見も。

どちらもロングリードを謳っているだけあって、目的がデノボアセンブリやゲノム構造変異解析、16S解析など、ガチでぶつかるのは当たり前です。
では2017年11月の現時点で、このふたつの製品はどこがどう違うのか?

注!:皆さんご存じ、私はPacBio側の人間なので、これから書くことは多少ともPacBioバイアスがかかっています。そこを承知の上、お進みくださいね。


さて、PacBioとONT、現時点でどこがどう違うのか?

【テクノロジーの違い】単純にいうと
  • PacBio:DNAポリメラーゼがDNAを合成するときに、取り込む塩基に付加されている蛍光を、レーザーによって1塩基ずつ検出する。1つのウェルからは1本の配列データしか出力されない
  • ONT:DNAがナノサイズの穴を通るときに生じるわずかな電位差を検出し、アルゴリズムが塩基配列に変換する。1つのポアから複数本の配列データが出力される
つまり、
  • PacBio:DNA合成を伴う、蛍光色素を使う。レーザー励起エネルギー検出
  • ONT:DNA合成は行わない、蛍光色素は使わない。電位差検出
皆さんご存じの方も多いと思います。

【リード長はどうか?】
  • 平均リード長:PacBioもONTも同じくらい (10kb~20kb)
  • 最大リード長:PacBioは読むライブラリのサイズ、ムービー時間などで制限されるので60kb~100kb程度ではないかと思う。数百kbのリードは見たことが無い。一方ONTは、ポアを通るDNAが長ければ、最大1Mbのリードも出るそうだ
  • しかしリードの本数や分布には注意が必要。PacBioもONTも、短い(とはいっても数キロbpはあるが)リードは多く出力され、長いリードほど出力数は少なくなる。先のONTの超ロングリードも、出力本数でいうと数本
  • 因みにランタイムはPacBioのSequelが30分~10時間、ONTのMinIONが1分~48時間、だそうで。
数値についてはこちらを参照(オフィシャルな情報です)

で、精度はどうか?
生リードとコンセンサスリードで精度の意味は違う。
ここを一緒にして、「ロングリードは精度が悪い」という研究者のなんと多いことか!!

【生リードの精度】
  • PacBio:RSIIのP6C4ケミストリーや今のSequelは、平均86%
  • ONT:精度の数字はケミストリーのバージョンによって様々のようだけど、R9.2は平均80%~85%くらいか(違ってたらゴメン)。でも使うベースコーラーによって精度は変わってくるそうです。ベースコーラーは何種類かある
つまり、どちらも生リードの精度はほぼ同じ、ということになる。しかしもっと重要な点は、エラーの入り方。
【エラーの入り方】
  • PacBioはランダム
  • ONTはランダムという話も聞くが、実は決まった場所に必ずエラーが入るというユーザーのポスターも見るので本当のところはわからない
【コンセンサス配列の精度】
  • PacBio:エラーがランダムに入るので20~30カバレッジでQV50(99.999%)も可能
  • ONT:ONTだけのデータでQV50を達成している結果は私は聞いたことが無い。たいていイルミナデータをエラー補正に使っているようである
とまあ、ここまで読んで、いやそんなことは無い!と思った方もいるでしょう。
あくまでバイアスがかかった私見ですので。
この辺の技術の数字は、すぐに変わる可能性があります。少なくともPacBioは、来年データ量が増える予定なので。この辺はONTとの競争ですよ

【ベースコール】

  • PacBio:装置から出てくるデータは既にベースコール済み
  • ONT:ベースコーラーが数種類あるのでユーザが適切なものを使用してベースコールをかける必要がある

【PacBioしかできない解析】
  • CCS:ライブラリを1分子DNAの単位で何度も繰り返し読むことができ、精度を上げることが可能。Iso-Seq(完全長cDNAを高い精度で読む解析)ができる
【ONTしかできない解析】
  • ダイレクトRNAシークエンス? 今どこまで現実的に使えるのか、知っているひといたら教えてください
【PacBioでもONTでもできる解析】
これはいつくかリストした後に考えてやっぱり消しました。というのは、「できる」という言葉の定義がひとによってさまざまだから。
バクテリアのゲノムアセンブリができる、と言っても、精度99.99%以上でできるというのと、ラフなドラフトでいいからできる、というのとでは全然違う。
HLAなどのロングアンプリコンシークエンスもそうです。求められる精度が6桁なのか8桁なのかで同じく「できる」というべきか。
あと、メチレーションや16SなどでもONTのデータを私は知らないのでできると言うのはやめました。
あと、意外と知られていないことですが、ノートPCにUSB挿してランができるMinIONも、データ解析には普通のサーバが必要です。

それでは技術以外の、それぞれの特徴を考えてみましょう!

【PacBioの特徴】

  • 装置型なのでシークエンスを行う環境が安定している
  • 実験プロトコルが用意されている
  • 解析パイプライン(マッパーやアセンブラ)がほぼ確立されている。これを使っておけば大丈夫的なツールがある
  • グローバルに数百台入っていて、国際プロジェクトにも正式採用されている(例えばG10K(脊椎動物のゲノムプロジェクト)ではPacBio、10XGenomics、Hi-Cのみが正式採用)ので信頼が高い
  • PacBioを使った研究の論文数、学会でのポスター数は圧倒的にONTのそれより多い(これは先行者だからかもしれません。来年が勝負の年かも)
【ONTの特徴】
  • MinIONはコンパクトで持ち運べる
  • 初期投資額が少なくて済む
  • 誰でもどこでもいつでもシークエンス、を謳っているが、「どこでも」シークエンスをするとデータにバラつきが出やしないか?(逆に、誰がどこでランしても一定のデータが出てくるなら凄い)
  • ユーザーコミュニティの中からプロトコルや解析ツールが作られる、ボトムアップなイメージ。NGSは昔からサードパーティのツールがユーザーから作られるものだが、ONTはよりその傾向が強いように感じる
  • バージョンアップのスピードが速い。PacBioもそこそこ速いけれどONTはもっと速いイメージ


と、つれづれなるままに書いてみましたが、いかがでしょうか?
結局はコストだと言われるかもしれませんが、シンプルにランニングコストで比較すればPacBioも負けていませんよ。アプリケーションによっては。

結論!
PacBioやONTのどちらも持っていない場合

  • どうしても自分でランしたくて、ユーザーコミュニティでどんどん聞いて行くのが好きで、インフォマティクスにも強ければONT(ベースコールも何種類かあるのをお忘れなく)
  • 自分でランすることにはこだわらず、安定したデータを早く出したい、インフォを誰かに頼めるか自分でできれば、受託か共同研究でPacBio
  • 限られた予算を無駄なく効果的に使いたければ・・・ (答:     )

PacBioを持っている場合:
迷わずPacBio(笑) これ一本!

以上、2017年11月現在の私の意見でした。

2017年11月10日金曜日

薬草などのIso-Seq論文3本

長年この仕事をしているとたまに、別々の研究者からほとんど同じ研究内容の話を別々にされることがあります。
例えば所属が違うAさんとBさんから、全く同じ生物種の、非常に近い研究テーマの話を、別々にされる。
あれ? もしかして共同研究者? って思ってしまうけれどもそこは要注意です。
とりあえずその場では初めて聞いたふうに取り繕って、後で名前をググって確かめます。

経験上、50%以上の確率でそういう場合は競争相手。
(注:フィールドによって若干その割合は違う。植物系は共同研究の確率高い。動物系は半々。医学系はほぼ競争相手だ!)
守秘義務があるのでもちろん聞いた研究内容は誰にも言いませんが、競争相手同士からほぼ同時に相談あるいは話をされたときは細心の注意を払います。
そんな時は聞き役に徹すべし

さて、ほぼ同時に、薬草を材料にしたIso-Seqの論文が3本出たそうです。
韓国・中国・インド・オーストラリアのチームから。
材料はそれぞれ違うのでかれらは競争相手同士ではないでしょう。

そのうちのひとつ Panax ginseng(オタネニンジン・高麗人参・朝鮮人参)は、異質四倍体の3.2Gbゲノムと結構複雑なんですね。
リピートも多く、読みにくい。
そこでIso-Seqを行って完全長トランスクリプトーム解析を行った。
Jo et al., Isoform Sequencing Provides a More Comprehensive View of the Panax ginseng Transcriptome

組織は4か所から採取
RSIIを使っているので、サイズセレクションをしています。
1‐2kb、2‐3kb、3‐6kb、6kb以上、という風に4区画ですね。
サブリードがトータルで822万本取れています
そこからcDNAをフルでカバーしていて、Isoformごとにクラスタリングして、クオリティも良いものだけをフィルタリングしていくと、
このテーブルの下の数字くらいの数、合計17万4000本くらいになる

ご存じかもしれませんが、Iso-SeqはSequelではもうサイズセレクションをしません。
そのまま全部のサイズのcDNAでライブラリを作り、一気に同じセルで流します。
ここに書きましたので参照下さい

Iso-Seqは、遺伝子のスプライシングイベントを正確に読むことができる、単純かつ素晴らしいアプリケーションだと思っています。
ゲノム配列が完全にわかっていないような生物でも、cDNAの完全長を読めば、ある程度どんな遺伝子が発現していたのかがわかるので、非モデル生物の研究にもかなり使われてきています。
今年はそういった成果が次々に論文になりました。
今の論文なので実験をした当時はRSIIですから、サイズセレクションを必ずしています。
来年あたりはSequelを使った、サイズセレクション無しの論文も期待!

USB接続のシークエンサーなら持ってるよ

巷ではUSB接続のシークエンサーが流行っているそうですねー
私も持ってるよー

ほら


こうして、


ピッと上部を外して、
PCにはめるだけ


出力は8 Gb あります
あ、容量が、8 GBあります

窒素使っていません

使い終わったら返却する必要もありません
これは何度でも使えます

読んだあと、
解析はそれなりのサーバが必要です


すいません
ネタでした

ではまた

2017年11月4日土曜日

増幅無しのターゲットエンリッチメントはCas9を使え!

先月10月のASHGはフロリダ州オーランドでした。
成田からシカゴへ行く飛行機の中、偶然にも隣に座ったひとが、このブログを学生時代から読んでました、というかたでビックリ!
こんなこともあるんだな~、と思いましたね。

いまさら学会報告もあれですが、PacBioのワークショップのビデオ、ポスター、プレゼンテーションが昨日ウェブに公開されたのでお知らせします。

PacBioは今年のASHGで、構造変異解析を前面に持っていきました。
構造変異というのはいわゆるSNV解析よりも大きな、数百塩基やそれ以上の、挿入・欠損・Inversionなどの変異です。
また、リピート配列というのも疾患に関連する変異のひとつです。


ASHGの展示会場にて、CoLabというコーナーがあり、そこで企業がセッションをしていました。分生なんかでも良く見る、あれです。
ここでも紹介されているCRISPR/Cas9 Targeting、これはCas9を応用した増幅無しのターゲットエンリッチメントです。
上のウェブページはこちら

なぜ増幅無しのターゲットエンリッチメントが注目されているかというと、増幅できない配列をエンリッチできるからです。

は、はい。 

という声が聞こえてきそうですが、例えばハンチントン病やある精神神経疾患などでは、CGGやCAGといった3塩基が何十回、何百回も繰り返して、その繰り返しの量で病状が変わることが知られています。


CGGのリピートだと、CGGCGGCGGCGGCGGCGGCGG・・・になるのでもちろんPCRがかからない。

このような配列をエンリッチするには、増幅を介するハイブリベースでは難しい。そこでCas9エンリッチの登場!

ゲノム配列を制限酵素を使って切り、スマートベルを作製し、ベルの中のターゲットとする配列をCas9で切断、切断されたライブラリには第二ヘアピンアダプターをつける。
第二ヘアピンアダプターはほかのペアピンアダプターとは配列が違い、その配列のついたスマートベルだけをビーズで回収する。 
文章に書くとこんな感じです。
スライドはこちらにありますので興味ある方はどうぞ。

Cas9エンリッチメントを行うと

  • PCRバイアスやエラーを防ぐことができる
  • 一塩基レベルの精度でリピート配列全体をカバーできる
  • リピート配列の数を計測できる
  • 違う配列がリピート配列の中に混じっている場合もそれを検出できる
  • リピート配列の体細胞モザイシズムも見ることができる

こちらCas9エンリッチメントは先日論文が公開されました

このCas9エンリッチメントですが、正式プロトコルは来年早々リリースされる予定です。
こうご期待!