2018年3月31日土曜日

CCSは精度では全てのNGSに勝る。コストではサンガーに勝る。カナダの生物種同定プロジェクトの例


これは私がずーーーっと前にこのブログで説明したCCS(Circular Consensus Sequence)についての絵です。
一時期、CCSのことをROI(Reads Of Insert)と呼んでいたこともありましたが、わかりにくいということでCCSの呼び名が復活しました。

今のSequelでは、1セルあたり100万のZMWから30万本~60万本のリードが出てきます。
平均10kbのリード長とすると(実際は平均12kbのときもあればそれ以上のときもありますが、少な目に見積もって10kbとした)、15万本~30万本のリードは10kb以上読めていることになる。
例えば1kbのライブラリを作りランするとしたら、10回以上同じインサートDNAを繰り返し読んで作られたCCSが、15万~30万本作られることになりますね。
10回以上繰り返し同じDNAを読めば、かなり精度が高いCCSが作られます。
実際の解析ではもちろんパス数でフィルタリングするよりも、QVでフィルタリングした方が良いでしょう。


ミトコンドリア配列中にあるシトクロムCオキシダーゼI(COI)遺伝子の配列は、さまざまな生物で配列に違いがある。
GC含量が15%~45%とバリエーションが広く、サンガー法ではホモポリマーなどが原因で読みにくい。
この配列を読むことで生物種多様性を研究しているひとたちがいる。

International Barcode Of Life という国際プロジェクトがある。
Dr. Paul Hebert, Director of the Biodiversity Institute at Guelph, Canadaは、今までサンガー法で行っていたCOI配列のDNAフィンガープリントを、Sequelでバーコードを使って読み、大幅なコストダウンを実現したという。
Hebert博士のプレゼンの様子はこちらから録画が見れます。
Dr. Hebertのプレゼンから
実際にはCOI遺伝子の658塩基の領域を増幅して、アシンメトリーのバーコードを付けて、Sequelで読んだ。
100種類のバーコード配列をアシンメトリーにヘアピンアダプターに付けるので、100x100種類で合計10,000種類の識別が可能になる。

10,000種類の識別が一度に可能ということで、1日に4セルランし、1週間で260,000種類のDNA検体を解析したとのこと。



実験の詳しい内容はここの論文に書かれています。
サンガー法と比べても、コストと手間の面でSequelが圧倒的に優れています
精度もサンガー法と引けをとりません。
もっとも、一度に10,000サンプルとか言われると、DNA検体を集める方が大変かもしれませんが。
Hebert博士らの論文(2018)
なお、ショートリードでは658bpを連続して読むことはできません。
MiSeqを使った250bpメイトペアシークエンスでも届かないでしょう
同じロングリードのオックスフォード・ナノポアはどうか?
残念ながらCCSのように同じライブラリを何度も読むことはできないので、サンガー法のような精度を達成することはできないでしょう。

ということでSequel(もちろんRSIIも)は、PCRアンプリコンをたくさん一度に精度を高く読むことのできる唯一のNGSと言えるでしょう!

2018年3月30日金曜日

学会2連ちゃんした結果頭の切り替えが大変だった件

今週は日曜月曜が日本育種学会、火曜水曜が日本細菌学会。
両方とも福岡での開催で連続していたので2連ちゃんをしたわけです。
これは細菌学会での私たちのブース
お隣さんは、ショートリードのI社ですよ。反対のお隣さんはひとつおいてロングリードのO社ですよ。さすがAEさん!
まあ、NGS業界はみんな仲良いから変な空気にはなりませんけどね。

どちらも登録して中のセッションも聞きに行きました。
育種学会はもちろん植物の学会なので、遺伝マーカー、連鎖解析、植物の各組織の名前、収量、環境ストレス、というキーワードが頻繁に聞かれます。
一方細菌学会は、抗菌薬、選択圧、病原性、病気の名前、サーベイランス、プラズミド、というキーワードを良く耳にしました。
というわけで、あたりまえですが参加者の研究分野が全然違うのです。恐らくお互い接点は無いのでは。
なので2連ちゃんすると異業種交流会に来たような錯覚。

以下、私見ですが・・・
ゲノム解析の重要性について
育種学の分野では、イネなどの主要穀物は、国際プロジェクトなどである程度ゲノムが読まれている。しかし今は品種ごとにゲノムを決定する必要がある。コムギなどはゲノムサイズが大きく、また倍数性も高いため、完全ゲノムを決定するのは極めて困難。遺伝マーカーを決めるためにRAD-Seqなど様々な方法を試している。野菜や果物などもゲノム解析のニーズは高いが、植物はリピートなどが極めて多いので、完全なゲノム配列を求めるというよりも、選別のための遺伝マーカ―さえわかればOKという感じ。

細菌学の分野では、バクテリアはゲノムサイズが小さいので完全長ゲノムを決定することは十分可能。とはいっても、染色体中に数十Kbの同じ配列が逆向きに挿入されるような場合もあるらしく、そういう場合はもちろんPacBioなどロングリードが必要だし、それを使っても完全長決定が大変な場合もある。バクテリアゲノムは遺伝子が密な分、完全に塩基配列を決定する重要性が感じられた。
薬剤耐性、特にカルバぺネム耐性菌の場合、耐性遺伝子がプラズミドに乗っている場合があるらしいです。その場合はプラズミド配列を読むことが一層大切。


学会の参加者と話して感じたこと
育種学会には、全国の農業試験場、農研機構、国立研究機関、大学農学部、種苗メーカー、食品メーカー、酒造メーカー、などから研究者が集まります。
私が感じたのは、この業界は産学の繋がりが強いということ。
中にはいろいろ大人の事情もあるのでしょうが、外から見た感じは「みんなすごく仲が良い!」 
より良い農作物を作ろう、という目的はみな同じ。横のつながりが強いのでしょうかね。
あと良かったのは、育種学会のポスター発表では必ず毎回、地元の高校生も発表するんですね。こういうのは素敵です。
懇親会はいつも、地元の食材を使った料理やお酒がふるまわれます。秋の大会(育種学会は年二回)のほうがお酒の量凄い、気が。

細菌学会は、国立国際医療研究センター、国立感染症研究所などの研究機関、大学医学部の微生物や細菌学の教室、全国の総合病院などから研究者が集まります。
細菌学は産業と言うより、公衆衛生学の観点からいかに感染拡大を防ぐか、どうやって細菌からの感染を予防するか、の議論が多いように感じました。
生死に直結している分、緊迫感が感じられる学会かな。
こちらは懇親会は無し。ポスターのミキサーでは軽食がありました。
ポスターはこちらもすごい活気がありましたよ。部屋の温度が5度くらい上がっていたかもね。

育種学会と細菌学会はそんなわけで連続していたのですが、全然客層も違う学会なので頭の切り替えが難しかった。
でもどちらも今回はブース出したかいはありました。
出展料の数十倍のリターンはあったかも。

PacBio系の話は次にします


~~~さて連絡事項です~~~
今年もやります、PacBio現場の会!
2018年5月18日(金)
午後1時から5時過ぎまで 懇親会もあります
場所は東京・秋葉原のUDX Next1

演者の方も決まりました。4月になりましたらお知らせします!
バクテリアから植物ゲノム、がんゲノムなど幅広い分野から5名のお客様の講演
PacBioのアプリケーション、アップデート、Dovetail Genomicsの紹介などなど、盛りだくさんな半日セミナーになる予定です!

是非まずは日付をチェック!〇付けてほかに予定入れないでおいてくださいね!

4月になったら、NGS現場の会メーリスや、このブログや、PacBioからのメール、トミーデジタルバイオロジーからのメールなどで、登録サイトなどをお知らせします。
乞うご期待

2018年3月25日日曜日

ファインディング・ニモ

育種学会に来ています。このブース、雑多に見えるかもしれませんが、それは後ろのブースが見えているからですかねー。実際に見ると意外とすっきりしていますよ。
値段を入れたせいか、たくさんのお客さんが足を止めてくれました。

私たちの目の前の企業さんが、ブースに「人工気象器」というものを展示しているのですが、「人工太陽」をデモするたびに、眩しっ!
目の前が眩むっす。 これも育種学会あるある?

さて、学会とは直接関係ありませんが、ファインディング・ニモでおなじみのカクレクマノミのゲノムが読まれました。
Finding Nemo’s Genes: A chromosome-scale reference 1 assembly of the genome of the orange clownfish Amphiprion percula
https://www.biorxiv.org/content/early/2018/03/08/278267
サウジアラビアとオーストラリアのチームですね。日本人のかたも著者に入っていますね。

彼らは20kbライブラリをPacBio RSIIで6時間、113セル読み、113.8Gb(121カバレッジ)のロングリードを得ました。
Falconアセンブリで最初にエラー補正された58カバレッジのp-readをアセンブリに使い、最終的に1,414本のPolish済みコンティグ(N50=1.86Mb)を得たそうです。
その後はもちろんHi-Cでのスキャフォルド。アセンブリ結果の98%の配列は24本の染色体の中に納まったそうです。
最終アセンブリ配列は908.8Mbで、コンティグN50は3.12Mb、スキャフォルドN50は38.4Mbとのこと。
PacBioとHi-Cの組み合わせはここでも活きていました
魚類の中では、最も長い連続配列を取得したアセンブリ結果のひとつだそうです。

さて、最近論文発表された同属のアセンブリ(NanoporeとIllumina、IlluminaとPacBio)と比較して表をPacBioのマーケが作ってくれたので見てみましょうか。

PacBioのみでアセンブルしたA.percula が最も長いコンティグ/スキャフォルドN50を達成していることがわかるでしょう。

2018年3月20日火曜日

PacBio Sequel v.5.1  ~もうバージョン5.1になってました、、、

装置やソフトウェア、試薬のバージョンアップは、この業界では頻繁にあることです。
今のSequelでは、装置ソフトウェアと解析ソフトウェアが同じバージョンでそろっていて、試薬やケミストリーが別のバージョン番号で管理しているのです。
ちょっとややこしいですが、試薬・ケミストリーが v.2.1で、ソフトウェアが v.5.0 という感じだったんですね。
解析ソフトウェアSMRT Link(SMRT Analysisを含む)のバージョンが、装置ソフトウェアと同じバージョンです。

そこで今回、新たなバージョンアップ!

ソフトウェアが v.5.1になり、ケミストリーが 2.1 version 2 に!
ん? v.2.1 のさらに v.2 って・・・ と思う方もいるでしょうが、そこは気にしないでください。

装置&ソフトウェアの v.5.1と、試薬 v.2.1(v2)を使った場合のスループットがこちら。
ロングライブラリ(35kb)を10時間読んだとき

ショートライブラリ、5kbアンプリコンを20時間で読んだとき

そう、v.5.1から、10時間ムービーと20時間ムービーが選べます。
20時間で読む場合は、LRという別のSMRT Cellを使う必要があります。
(因みにスタンダードのセルよりもLRセルの方が若干高価)

どう使い分けるのか?ですが、今のところ、
  • ゲノムアセンブリのような長いインサートライブラリは10時間
  • PCRアンプリコンやIso-Seqのような短いライブラリは20時間
をお勧めしています。将来的には変わるかもしれませんが、今はこのように、長いライブラリは今まで通りの10時間で読み、短いライブラリは、もちろん10時間でも良いけれど20時間で読むこともお勧め、ということです。
もちろん、20時間で読んだ方がロングライブラリでも長く読めるのでは?という疑問が出てくると思いますが、今のところ、ロングライブラリを20時間で読んでも、10時間で読んだときと平均リード長はほぼ同じ(最長リードは長いが)。というデータが出ています。
LRセルの方が高価だということを考えると、10時間でも費用対効果は良い。

ところが短いライブラリで、主にCCSを作ることを目的としたシークエンスでは、20時間は生きてくるのです。
先のデータによると、

35kbライブラリの場合、10時間で読んだとき
  • データの半分以上は、30kb以上の長さのリード(ポリメラーゼリードとサブリードはほぼ同じ長さとみて良い)
  • 最長リードは90kb超え
  • 1セルあたりの出力塩基数は 10Gb
  • 出力リード数は40万

5kbアンプリコンライブラリの場合、20時間で読んだとき
  • データの半分以上は、70kb以上の長さのリード(アンプリコンサイズが5kbだから何度もインサートを繰り返し読むことのできるポリメラーゼリード、が多く出力される)
  • 最長ポリメラーゼリードは180kb超え
  • 1セルあたりの出力塩基数は20Gb
  • 出力リード数(この場合出力CCS数と言っても良い)は40万

アプリケーションごとのSequel v5.1パフォーマンス(1 SMRT Cell あたりの出力)は以下のようになっています(v5.1 Software Upgrade and Performance Overview - Customer Training より引用)

Whole Genome Sequencing for De Novo Assembly
-Up to 10 Gb:サイズセレクション済の 40kb以上のロングライブラリの場合
-Up to ~7-10 Gb:サイズセレクション済の 15-40 kbロングライブラリの場合

Iso-Seq 完全長 cDNAシークエンス
-Up to 20 Gb
-Up to 250,000-350,000本の full-length non-chimeric (FLNC) reads

Targeted Sequencing (アンプリコンシークエンス)
-Up to 20 Gb
-Up to 300,000 CCS reads:2.5 kb アンプリコンの場合
-Up to 200,000 CCS reads:5 kb アンプリコンの場合
-P1リードのうち 40% 以上は QV 30 のCCSを作成可能:5 kb アンプリコンの場合

Structural Variation Calling (構造変異解析)
-Up to ~7.5 Gb: サイズセレクション済の 15kb ロングライブラリの場合

「Up to」と書かれていますね。これは、そういう意味です。
必ず出る保証はないけれども、うまくいけばこのくらいの塩基は読めるという。

と書いていて自分で言うのも何ですが、数字ばかり並べてもあまり説得力がないと思います。
それぞれ、研究にどれだけ使えるのかを具体的に示せなければ意味が無い。
これについては次に書く予定です。

お知らせ:
3/25-26 日本育種学会総会
3/27-28 日本細菌学会総会
にそれぞれ出展します。どちらも福岡での開催です!

2018年3月16日金曜日

Human Genome Meeting 2018 @パシフィコ横浜 終了!

あー、終わった終わった。
いつも学会展示会の後はそう思います。
立ちっぱなしも結構疲れるんですよ。

今週はHuman Genome Meetingという国際学会に出展していました。
RIKEN&Hugoが主催で開いたこのミーティングには、およそ400人の国内外のヒトゲノム研究者が集まったそうです(最終参加人数はまだ聞いていませんが、およそそれくらいの人数かと)

どうですか? このすばらしいブースデザイン!
サイズ感がわからない?
バックの絵は高さが2mちょい、横幅は4mくらいあるんですよ。

他にもたくさん企業が出展していまして、ロングリードのもうひとつの会社も、ショートリードの会社ももちろん。
シークエンス受託会社も、タカラバイオさんをはじめ、マクロジェンさん、Novogeneさん、DNA Linkさん、BGIさんも出展。
BGI シークエンサーも、展示してありました。100bpまたは200bpのペアエンドで読めるらしいです。
イルミナさんの iSeq は、斬新なデザインでしたね。白いカクカクっとした立方体。
半導体のチップは、どこかの会社のアレにそっくりでした。
さすがに写真は撮らなかったですけど。

さてさて、私たちPacBioは、初日にスポンサーセッションとランチョンセミナーをやりました。
スポンサーセッションでは、東京大学大学院医学系研究科 ゲノム医学講座の河津正人先生に、「Genetic status of immune microenvironment in microsatellite instability-high colorectal cancers」という題名でお話し頂きました。

ランチョンセミナーでは、前半をPacBioのCSO、Jonas Korlachが「Accessing the full size-spectrum of human genetic variation using PacBio long-read SMRT sequencing on the Sequel System」
後半をHouston Methodist Research Instituteの芦澤哲夫先生に「Internal sequences of large pentanucleotide repeat expansion alleles in SCA10」というタイトルでお話し頂きました。

Jonasの講演

芦澤先生の講演

翌日、私たちはアジア時間に合わせてウェビナーを行いました。
芦澤先生には、こちらのウェビナーでもお話し頂き、たくさんの参加者が参加されました。
当日参加できなかったかへ朗報。
ここからビデオ録画が視聴できます。

精神疾患とその原因のひとつと考えられている、繰り返し配列のシークエンス。
Cas9を応用したPacBioのEnrichment技術。
PacBioはまさに、メディカルに応用できるロングリード技術である、ということが実感できると思います。

是非ご覧ください。


2018年3月5日月曜日

2018年3月 最近のIso-Seq論文

3月になって東京も少し暖かくなってきましたね。
予報によると桜の開花は東京は3月17日だそうで、平年より早め。
ところが先週行った沖縄では、桜の木は既に緑でした!
沖縄では桜は毎年1月下旬に開花するらしいです。といっても最初から葉桜とのこと。
桜吹雪は無く、散るときはツバキみたいに花被全体が落ちるらしい。

さて、今日は久々にIso-Seqの話題
PacBioのIso-Seqメーリングリストがあってそこから送られてきた最近の論文リストを紹介します。

1.Minio et al. Isoform-scale annotation and expression profiling of the Cabernet Sauvignon transcriptome using single-molecule sequencing of full-length cDNA

2.Yan et al. SMRT-Cappable-seq reveals complex operon variants in bacteria

3.Workman et al. Single-molecule, full-length transcript sequencing provides insight into the extreme metabolism of ruby-throated hummingbird Archilochus colubris, Gigascience (2018)

4.Balazs et al., Long-Read Sequencing of Human Cytomegalovirus Transcriptome Reveals RNA Isoforms Carrying Distinct Coding Potentials, Scientific Reports (2017)

5.Cheng et al., Long-read sequencing of the coffee bean transcriptome reveals the diversity of full-length transcripts, GigaScience (2017)

この中でも2のバクテリアIso-Seqは今までに無くて面白いかも。
Iso-Seqというと、真核生物のmRNAのスプライスバリアントを一気に読みぬくことができる強み、が特徴です。
でもバクテリアは、、、イントロンありませんよね?

そこでバクテリアのIso-Seqは何が見れるのかというと、

オペロンです!

オペロンって、分子生物学・分子遺伝学の最初の方で習いました、よね?
プロモーター、転写開始点、終了点などを初めて習うところで。

Yan et al. SMRT Cappable-seq
バクテリアのmRNAにも poly-A 配列があります。
最初の cDNA は、オリゴ dTを含むRTプライマーによって逆転写で作られます。
不完全に作製された cDNA はRNase I によって排除。
次にTerminal Transferaseによって cDNA の3’側にPoly-G が付けられます。
2本鎖目の cDNAとその後はPCR増幅によって作られていきます。
Yan et al., SMRT Cappable-seq
その後USER(NEBの酵素名)によってdUracilは除去され、スティッキーエンドが作られます。その後、SMRTbellライブラリが作成される、という流れ。

著者にNEB社が入っているので酵素はクローンテック社のものでは無くNEB社のもので完結しています。
そこは少しPacBioオフィシャルプロトコルと違うところです。

で、このバクテリアIso-Seqを大腸菌でやってみたところ、なんと40%の転写終了点が遺伝子リードスルー(日本語訳わからん)だったとのこと。
この技術は真核生物のスプライスバリアントと同じくらい、バクテリアオペロンのバリアントもたくさん存在することが明らかになるかもしれませんね。