2017年2月23日木曜日

バクテリアマルチプレックスシークエンス


Sequel のスループットは、RSII より多いです。
Movie時間やライブラリの種類によって変わりますが、一般的にRSIIでも1セルあたり550Mb~1Gb のデータは出てきます。
一方Sequelは、3Gb~7Gb のデータが出ます。
ポリメラーゼリードの分布はこのような感じ。
1セルで7Gbものデータが出ると、高等真核生物のような大型ゲノムのアセンブリには向いているんですが、バクテリアサイズのゲノムにはそのままではオーバースペックなんですね。

そこで誰もが思いつくのがマルチプレックス。
バーコードをつけて、多検体を一度にシークエンスし、解析のところでバーコードごとに振り分けて検体ごとにHGAPする方法です。

その公式プロトコルができあがりました。解析ワークフローはこちらにあります。

この方法を簡単にまとめると
  • 10kbライブラリをつくる(ゲノムを切るとき10kbをターゲットにする)
  • ゲノムを切った後はExo VII酵素で切れ端一本鎖を処理する
  • バーコード付きのダンベルアダプターをDNAの両端にライゲーションする
  • ライゲーションした後複数サンプルを混ぜる
  • 5Mbゲノムなら12サンプルまで、2Mbゲノムなら16サンプルまで一度に混ぜることができる(Sequelのとき)
  • サイズセレクションにBlue Pippin は使わないで、0.45X AMPure PBを使用する
  • 解析はSMRT Link4.0 以降のソフトウェアで行なう
なぜ20kbでなく10kbライブラリを作るのか?
バーコードはインサートDNAの両側のアダプターについています。
そのアダプター配列を正しく読むためには、10kbくらいがちょうど良い長さなのです。
もちろんもっと短くても、ほとんどのポリメラーゼが端っこのアダプターまで到達するでしょうが、あまり短いとデノボアセンブリに向きませんね。
20kb のインサートだと、端っこのアダプターまで到達するポリメラーゼの数は半分以下か、もっと少なくなります。
それでは得られるデータが少なくなるのでマルチプレックスする意味が無い。
バーコードを認識するにはアダプターまで読みぬかないとダメ

ライブラリの長さとバーコード認識の比率はトレードオフの関係なんです。
ということは、ですね、とても長いリピート配列を含むゲノムには向いていないのです。
30kbのリピートが存在するゲノムをつなげるには、30kb 以上のライブラリが必要。
それだとバーコードまで届かない・・・。ジレンマ

でも、そこまで長いリピートを持たないバクテリア、または染色体を完全につなげなくても良い場合などはマルチプレックスをすることでコストを大きく引き下げることができます。

必要ゲノムDNAの量は?
DNAシェアリング(切断)した後のステップは、Exo VII酵素処理です。
ここで必要な検体あたりのDNA量は、
4マルチプレックスの場合:250ng
8マルチプレックスの場合:125ng
10マルチプレックスの場合:100ng
12マルチプレックスの場合:83ng
全体量で1μgがあれば良いのです

バーコード付きのアダプターは自分で作るの?
売ってます。PacBio Barcoded Adapter Complete Prep Kit.という名前で。
お勧め配列があるのでそれをつかいます

混ぜるときの注意点は?
DNA切ったときの切れ具合が、混ぜるサンプル間で似ていることが重要!
10kb狙って切ったとして、Bioanalyzerで確認して、もしも大きく切れかたが違った場合、DNA濃度をもとにして均等に混ぜるよりも、モル数を同じにして混ぜないと、均等にならない恐れがあります。注意しましょう。


ランニングコストはいくらになる?
12種類のバクテリア(ゲノムサイズ5Mb)を、この方法でバーコード付けてマルチプレックスで読んだときの、1株あたりのコストは、55,000円(2017年2月現在・Sequelの1セル使用時)


2017年2月10日金曜日

Oxford Nanopore Technologies (ONT) と PacBio のデータ比較論文

昨日は東京も2月の雪!
20代の前半をカナダの極寒で過ごしたので寒さには強いと思っていたんですが、やっぱり年取ったせいでしょうかねえ。寒いの嫌いです。

さてさて、
先日面白い論文(まだレビュー前)を見つけました。


トランスクリプトーム解析(ゲノムアセンブリではない)で、PacBioとONTのデータを比較した論文です。
オーサーのひとり Dr. Kin Fai Auは ISO-SEQの解析に詳しく、数年前からPacBioを使っています。ロングリードがアイソフォーム解析に有効だということはとても理解しています。

中立な立場で書かれた評価論文なので、どちらにも偏りの無い記述が目立ちます。

ロングリードの欠点は、精度が低い、ということだと彼らはいいます。
確かに、転写産物の1分子を読むには、数十回もカバレッジを重ねられないのである意味当たっています。

このブログを読んでいれば分かるかと思いますが、PacBioには、CCSという同じDNA分子を何度も読むことで精度を上げる方法があります。
1本の転写産物を、何度も繰り返し読んで精度を上げるのです。
また近年では、TofuというIso-Seqの解析アルゴリズムの中で、完全長cDNAを読んだ配列同士でクラスタリングを行い、1本の転写産物をCCSで読む以上にコンセンサス配列の精度を上げる方法も有ります。
ですが、この論文では、わかりやすい CCS で比較をしています。

一方の ONT は、同じDNA分子をポアに2回通す2Dという方法があり、精度は1回しか通さない 1D よりも高いです。1D は、PacBioでいう subread に対応します。
まずはこれがその比較

エラー率に注目!
  • PacBio の CCS : 1.72 %
  • 対するONT の 2D : 13.40 %
  • PacBio の subread : 14.20 %
  • 対するONT の 1D : 20.19 %
ONTの精度はもう少し高いと聞いていましたのでびっくりしました。
試薬バージョンによるのでしょうかね。
しかし、2Dが使われなくなるかも(PacBioから特許侵害訴訟を起こされているため)しれませんから、そうすると ONT としては 1D + ショートリード補正、というのが今後の使い方になるのでしょうか?

さて、論文の中に下のような文章があります。

"Results: PacBio shows overall better data quality, while ONT provides a higher yield. As with data quality, PacBio performs marginally better than ONT in most aspects for both long reads only and Hybrid-Seq strategies in transcriptome analysis."

なるほど。
いいんじゃないでしょうか。まだまだ勝ってる(笑)。

PacBioのエラー補正にショートリードを使わなくても良い、と個人的には思いますが、一方のONTをそうやって補正しているので、比較のために同じ条件でエラー補正したんでしょうかね。
PacBioとONTのエラーのパターンなんかも述べられていて、面白いです。
もちろん、転写産物解析にどちらのデータが使えるか、というのもちゃんと比較しています。

論文のリンク、忘れていました。
ここです。 





2017年2月3日金曜日

PAG報告 パート7 最終回 プレゼン録画のお知らせ

国際学会の醍醐味は、海外でどんなことをやっているかを知ることだと思います。
必ずしも最先端とは限らないけれど、日本であまり聞かない話や、逆に日本の研究が世界でこんなつながりがあるんだ、と気づくことがあります、
私自身、国内でも育種学会や、農学中手の会や、アグリゲノム産業研究会などを通じて植物のゲノムを再勉強しています。
そんなこんなでPAGはとても面白い勉強の場でもありました。

さて、今回はPAG報告の最終回。
PacBio関係のセミナープレゼン録画やスライド、ポスターなどの情報がネットにアップされましたのでお知らせします。

ぜひこれを見て、PacBioのSMRT Sequencing がいかにゲノムアセンブリやトランスクリプトーム研究に貢献しているか、を実感して下さい。


尚、上記セミナースピーカーのうち、ErichさんはBird 10K プロジェクトのリーダーで、PacBioのカスタマーイベント(という名の飲み会)で近くのテーブルにいたからしばらく話したひと。
Benさんは、知り合いと待ち合わせていたホテルのバーで偶然隣に座っていて友達になったひと。

こういう出会いも海外学会の醍醐味ですかねえ。

上記のビデオ、プレゼンファイルのダウンロードはこちらから。


2017年2月2日木曜日

コーヒーゲノム

これは私が先月サンディエゴのPAG学会で出会った、とっても元気な日本人からお土産に頂いたコーヒーです。香りが良い! ありがとうございます。

コーヒーと言えば、世界でもっとも良く飲まれている飲料のひとつでしょう。
私も1日に3杯は飲んでいます。
そんなコーヒー豆のゲノムを読むプロジェクトは、アメリカとヨーロッパで行なわれています。
私が知っているのはネスレが以前、アラビカ豆と何かを読んでいた話。
(すみません、昔どこかでレポートした記憶でしたがすぐに探し切れませんでした)

さて、コーヒーゲノムをPacBioで読んで、品種改良などに役立てようとする試みは、こちらでも紹介されています。



RSII 大活躍 !