2016年12月31日土曜日

今年最後は・・・Quiver と Arrowの話 我ながら地味

2016年、大晦日です。
紅白見ながら書いてます。PPAP、ゴジラ、真田丸、ブラタモリ。
今年は面白いな。

さて今年最後の投稿は、地味なネタです。
QuiverとArrowの違いであまり知られていないこと
GitHubのサイトでもあまり詳しくは説明されていないので、少しお話しします。

【はじめに】
QuiverとArrowは、どちらも、CCS(Circular Consensus Sequence)を作るアルゴリズムに由来します。
QuiverはRSIIのデータ用、ArrowはSequelのデータ用の、コンセンサス配列作製アルゴリズムです。
SMRT Analysis v2.3 まではQuiverが標準搭載されていて、v3.x からはArrowになりました。
v3.xは、SMRT Linkというパッケージソフトになったのですが、引き続きSMRT Analysisという名前も解析用ソフトとして使われています。
SMRT LinkでもP6-C4のRSIIのデータは解析できるよう、Arrowも対応されました。

【QuiverよりArrowの方が精度が高い】
CCSを作るとき、Quiverベースのアルゴリズムでは、何回パスを重ねても平均QVフレッドスコア30くらいで精度に限界がありました。
また、ホモポリマーもうまく認識できないという欠点もあったそうです。
これは様々なクオリティ値を使ったエラーモデルが複雑すぎて余計ノイズになったとか。
そこで開発されたのがArrowというアルゴリズム。
トレーニングモデルやエラーモデルをより単純にし、またZMWごとの違いを考慮するようにした。(2016年アジアユーザグループミーティングより)

Arrowを使ったCCSは、パスを増やすとQVをフレッドスコア50、60に高めることが可能になりました。
Old = Quiver, New = Arrow

【QuiverよりArrowの方が使っているQV値は少ない】
普通、シークエンサーから出力されるリードの塩基には、その塩基をその塩基であろうとしたクオリティ値(QV)があります。
つまりAである塩基をAとコールしたとき、Cではなく、Gでもなく、Tでもなく、Aであったという「確からしさ」を表現する方法として、QVがあります。

RSIIは、ベースコールの結果、各塩基ごとのQVのほかに詳細QV (DeletionQV, InsertionQV, SubstitutionQV, SubstitutionTag, DeletionTag)という複数のQVを出力し、Quiverはこれらの情報も利用してコンセンサス配列を補正します。

Sequelは、これら詳細QVは出力せず、各塩基ごとの全体のQV(QUAL/FASTQ qv)のみを出力します。
(実データを見たことがあるかたは、現在のSequelリード BAMファイルではQVの情報が全て「!」になっているのに驚くかもしれません。この問題は次バージョンで改善される予定です)
ですがArrowではそもそも、塩基ごとのQVを使用しません!

ではArrowは何のデータをもとにエラー補正&コンセンサス作製をするのでしょう?
Arrowは、

  1. 各リードのシグナルノイズ比
  2. 各塩基のパルス幅の情報

この2つを使用して、マッピング後のコンセンサス配列を補正して作ります。
これらの情報は今もリードBAMファイルに記載が有ります。

P6-C4のRSIIデータも、Arrowを使えます。
このときは、RSIIデータ(bax.h5)をSequelのBamファイルに変換し、リードごとのSN比と各塩基のパルス幅情報を使って、Arrowが使われます。
結局、補正に使うデータを単純にしたほうが精度が上がったということでしょう。

今後、Arrowで塩基ごとのQV(詳細QVではなく、全体のQV)が使われるようになるかは、現在のところ何ともいえません。
精度が向上するようであれば、使われるようになる可能性はあります。



ああー、もうすぐ2016年も終わります。
しかし笑ったのは、白組の方がダントツで票が入ったのに何故か赤組が勝った、というアメリカ大統領選挙よりも摩訶不思議な紅白歌合戦。
明日の新聞で説明あるかな?

また来年も宜しくお願いしまーす!
2月7日の「PacBioセミナー@秋葉原」も宜しく

2016年12月16日金曜日

Rocheとの別れ


年末になってまたまたビッグニュースが舞い込んで来ました。
2013年から続いていたRocheとの提携が、解消されることになったという。

いろんな噂が出る前に、ちゃんとした情報を取っておこうと思い、投資家向けテレカンを聞きました。
細かい内容は明らかにしてはいけないのでここでは書けませんが、これはプレスリリースにもあるとおり、Roche側から提携の延長をしないという判断がされたそうです。

Sequelの開発は、Rocheの資金協力のおかげもあったので、長い目でみたらお互いWin-Winの関係を築けていただろうに。そう思うと残念です。

とは言ってもなぜRocheが提携をやめる判断をしたのか、は、Roche側のビジネスの問題です。
3年前と今とではインビトロ診断領域のビジネス環境が変わった、というのがRocheの判断につながったのでしょうか。
装置を売るよりも、どのメーカーの装置にも対応したアッセイキットを作って売った方が儲かる!と考えたのなら理にかなう、かな?

でも、RocheのおかげでSequelができて、PacBioのターゲットが大きく広がったのは事実なので、ありがとうございました。

つい先日発表されたPacBioのrevenueも、大きく増えたし、Sequel装置もパフォーマンスの向上でだいぶ良くなった。

今後はどうなるのか? 
株は売られましたが、まだ大丈夫でしょう。

どこかと提携する可能性はあります。
個人的には、本社すぐ隣のFacebookとかが興味示してくれたらなー、と思っています。
シリコンバレーという場所柄、お金持ちが多いですからねえ。


2016年12月13日火曜日

2017年もやります! PacBioセミナー@秋葉原

12月も中旬になると、東京も急に寒くなってきました。
毎年、分生が終わったこの時期は、忙しいはずなんだけど・・・「今年も良く働いた!」というへんな達成感がある。あとは飲み会?Year End Party

さて、来年ですが、2月7日(火)に、また秋葉原UDXで「PacBioセミナー」やります。
今回は午後からの半日セミナー。
なぜ午後からかというと、朝から5時まででは長い!という意見が前回あったから。
そこで今回は1時から5時までで、英語での発表はひとつ、PacBio本社からのみ。

NGS現場の会のメーリスにも流しましたが、
今回の名前はシンプルに「PacBioセミナー」。
なぜ「PacBio現場の会」にしなかったかというと
  1. 同じ年にNGS現場の会があるので、社内で「現場の会の準備」と言っとき、「え?どっちの?」とややこしいから
  2. お客さんに紹介したとき、「え?どっちの?」とややこしいから

いう理由でした。

PacBioセミナー 2017
ロングリードが世界を変えた!

【日時】
201727日(火)
午後1時スタート(受付開始は1230分~)
午後5時半頃終了予定(その後懇親会あり)
参加料金は無料! 

【場所】
秋葉原UDX

【事前登録制】
ここからかならず登録してくださいね(そのページの一番下に入り口あります)

日本にPacBioが導入されてからまもなく6年目を迎えます。(ということは私も今の仕事してから6年目ということか・・・)
バクテリアゲノムから大型真核生物ゲノムまで、様々なところでSMRTテクノロジーのスーパーロングリードは活躍してきました。今回は、ヒトゲノム、植物ゲノム、そして新型機Sequelにフォーカスしたセミナーを行ないます。もちろん、そのほかのアプリケーションやバクテリアゲノムも忘れません!

今回も、豪華な演者の先生方をお招きします。
  • 芦澤哲夫先生(Houston Methodist Neurology, Director);ショートタンデム反復の拡張と神経遺伝疾患との関連性の研究がご専門。米国NIHの組織するSCAコンソーシアムのリーダー
  • 安田純先生(東北大学 東北メディカル・メガバンク機構 教授);日本人基準ゲノム配列(JRG)をPacBioを用いて決定。このプロジェクトの中心メンバー
  • 榊原康文先生(慶應義塾大学理工学部生命情報学科 教授);11月にNature Communicationsに発表され注目を浴びたアサガオゲノム。その解析チームリーダーでバイオインフォマティクスがご専門
  • 豊田敦先生(情報・システム研究機構 国立遺伝学研究所 特任教授);ゲノム支援・先進ゲノム支援の枠組みの中でPacBio RSIIを様々なプロジェクトに活用され、日本で最もPacBioを使われているユーザのおひとり
  • ほか交渉中演者数名

PacBio本社からは、アメリカでのPacBio応用例をご紹介します(Luke Hickey, PacBio)。
さらに、PacBioアプリケーションアップデートの発表や、今話題のDovetail Genomics(ゲノムアセンブリ専門の受託サービス)、Swift Biosciences(少量DNAからのショートリードライブラリ作製キット)の紹介、NGS関連商品の紹介などもする予定です。

今回もPacBioに興味のある現場の方や、ロングリードの可能性に期待する先生方が一同に集まる貴重な場になると思います。
是非この機会にご参加下さい。

しつこいですが事前登録制です。
このページの一番下から、Googleフォームへのリンクへ行って、レジストしてください。
入り口がわからない方は、ここから直接どうぞ

懇親会は、会場近場で18:00から予定しています。

是非こちらもご参加下さい。.

タイトル、アブストなどが決まり次第、またお知らせします。

来年は、手のひらサイズシークエンサーが話題になりそうですが、PacBioはまだまだ負けてませんよ!
ランニングコスト、データ量、精度、供給安定性、サイエンスとしてのデータ、いずれも客観的に見てPacBioの方が上回っている、ということをこれからもお示ししていきます!

なーんて、大きなこと言ってますが、アレですね、市場が活性化するのはいいことです。
同じロングリード同士、競いながらもうまく住み分け、するのかな。
これについてはまたの機会にしっかり書きます。
では

2016年11月23日水曜日

IGVでの格好いい見せ方の、もとデータ

前回、IGVでPacBioを格好良く見せる方法を紹介しました。
その時例に使ったデータは何かと言うと、Sequelでヒトゲノム NA12878 を10xくらいの深度で読んだものです。
具体的には、ここのデータ
ライブラリの長さは25kb、Blue Pippinを使って15kbにサイズセレクション

  • 使用したSMRT Cell 1M の数:10
  • トータルラン時間:60時間
  • 出力塩基数:32.8 Gb
  • リード数:340万本
  • リード長のN50 :11.823 bp

このとき使用した試薬は、旧バージョン、v.1.2 のもの
なので今ならセルあたりの出力はもっと多いはず。

とにかくこれでヒトゲノムの10倍のデータが出た。

このデータをヒトゲノムにマップするのですが、ここで使ったツールは、NGM-LR + PBHoney
PBHoneyは構造変異を検出するツールです。

NGM-LR って何? という方、これはロングリード用のマッピングツールです。
Next-Gen Mapping tool for Long Read、だったかな?何かそんな名前。
Githubにもあるので、興味のある方はここからどうぞ。

PacBioリードは1本が長いので、例えば 1kb 程度の挿入・欠損をまたいで読むことが可能。
しかし通常のマッパーでは 1kb の変異を考慮してほかの配列を綺麗にゲノムにマップすることができなかった。NGM-LRは、二箇所に分かれてマップするような、ロングリード独特な性質をフルに発揮できるマッピングツール。
BWAとNGM-LRのマッピング結果 Aaronのスライドより
さて、こうしてマッピングした結果は、もちろん参照できます。

先ず、DNAnexusのデモアカウントと作りましょう!
いえいえ、決して私はDNAnexusの手先ではありません。
仕方無いんです。ここにアクセスした方が、データ参照が楽だから。

私はアカウント持っているのですが、ロングインするとこんな感じです。

左下の、"PacBio Sequel Data" というところをクリックします。
これが例の10カバレッジのSequelデータ
"Sequel Data" を開きます
NA12878.reads.ngm.bamというファイルが、マッピングファイルですが、20Gbもあって大きいです。
そこで、indexsession ファイルをダウンロードします。
これは、IGVに取り込むと、DNAnexusのサーバにアクセスしてデータを表示してくれるインデックスファイルです。
IGVはこのように、必ずしもローカルに大きなサイズのマッピングファイルを持っておく必要がありません。

さ、IGV を開きましょう。前回のあれ、ですよ。わからないひとはちょうどこの前の記事をチェック!
ゲノム配列が "Human hg19" であることをチェックして(違ったら Human hg19 を選ぶ)

File > Open Sessions 
今ダウンロードした indexsession ファイルを選択。
何か聞かれるけどOKをする。
ゲノムのポジションを入力する場所に、試しに、
chrX:116453100-116453795
と入れてGo!
いぇーーーーい !!

ほかにもチラッと見てみたいポジションは、こんなところかな?
chrX:116454160-116454859
chr10:92213800-92216245

InDelの変異箇所は、先の DNAnexusのアカウントから、
NA12978_Output を選び、ここから ... del.bed  ins.bed ファイルをダウンロードしてきて、取り込むと面白いかも!

いかがだったでしょうか?


2016年11月22日火曜日

IGVでの格好いい見せ方

Integrative Genomics Viewer (IGV) といえば、NGSやっているひとなら一度は聞いたことのある、ゲノムビューワーですね。
フリーで使えてさくっと見るのにはとても便利。
先日、本社とのウェブミーティングで、このIGVを使って、PacBioのデータを格好良く見せる方法を教わりました。
皆さんも知っていると便利なツールだったのでシェアします!

まず、普通にIGV(ここではv.2.3.88)を使ってPacBioのアライメントファイルを開くとこう見えます。
ぜんぜん綺麗じゃない! 
SubreadをアラインしているのでInDelエラーが目立ってるんです。

これをある方法を使うと、このように見ることができます。
とてもすっきりしてますねえ。

これ、Development Snapshot版を使っています。

先ず、バイナリを落としてきます(上図カーソルの場所から)。
Zipを解凍して、中に作られる、igv.batファイルをダブルクリックして起動させます(テスト環境はWindows 7&10)

最初は、これまでIGVで表示していた、デフォルトで、PacBioアライメントが表示されるかもしれません。ここで、View > Preferences を選択
Alignmentsタブを開き、とりあえず以下のように数字を入れてみて下さい。
特に、
  • Label indels > 1: 2塩基以上のindelに表示が出る
  • Hide indels < 20: 19塩基以下のindelは表示されない

としてチェックを入れて、OKします。

ちなみに、普通のIGV(v.2.3.88)でも、これに似た画面はありますが、上記オプションはありませんね。
これはv.2.3.88のIGV
さてこれで、先ほどのような綺麗な表示ができるようになりました!
こんな感じに。

しかし例えば、下図のような場所があったとします。
大きなDeletionがある領域です。
そのほかにも、小さなInDelが点在するようですね。
では、Allele Frequencyが小さいものはエラーの可能性が高いので、除くことにします。
例えば、35%以上のアレルだけを残したい、そんな場合は、再び View > Preferences > Alignments から、Coverage allele-fraction threshold: を、0.35としてみる

そうするとこんなにすっきりします!
大きなDeletionがあるところの上流側に、ハプロタイプ(ここでは黄緑のA、リファレンスはT)があるのに気がつきます。
この黄緑色Aを右クリックして、Group alignments by > base at [塩基の場所] を選択
するとこうなります
大きなDeletionと上流SNV(T -> A)がリンクしているのがわかると思います。


IGVはあくまでビューワーですので、これ自体が解析するソフトではありませんが、データを見せる方法としてはとても使えるツールだと思います。

尚、この機能は、PacBioのプログラマー、Aaronさんによって作られました。

さて、次回は、この例に使用したヒトゲノムデータについてお話ししたいと思います。
多分誰でも使えるデモデータ、のはず。。

2016年11月10日木曜日

10X Genomics のデータだけに頼ってはいけない理由

 10X Genomics (10XG)という会社をご存知ですか?
Synthetic Long Read、またの名をLinked Read と呼ばれるデータを出力し、Scaffoldを作ります。
Synthetic Long Readというのは訳すと、合成ロングリード?擬似的ロングリード?でしょうか。
でも、これは本当の意味でロングリードじゃない! という意見があったのか、最近は Linked Read、リンクしたリード?、という呼び方がされるようです。
http://www.10xgenomics.com/products/より

バンクーバーのASHGでも、ランチョンやその他のワークショップでも存在感を出していた10XGですが、この会社の対象マーケットは、大きく、1)デノボアセンブリ、2)シングルセル発現解析、の2つがメインだと言えます。
シングルセル発現解析のほうは既存の技術に比べて何十倍ものハイスループット解析ができる、といった優位性があると思います。
ですが、もうひとつのデノボアセンブリは、どうかなあ・・・
10XGに頼って解析を進めていると、大きな情報を見落としていることに気づかないことがあるでしょう。今日はそういう話。

ここから先は、PacBioのJasonさん(Falconなどの開発者)が解析してくれた結果。
彼はバイアスをかけない解析をしますので、私は、とても客観的なデータだと思います。


まず、NA19240サンプルを、PacBioでアセンブルした結果と、10XG v.1.3 でアセンブルした結果があります。
Contiguityを比較するのは大人気ない、というかそもそもContigとScaffoldを比較するのはあまり意味が無い。
そこで、アセンブルした後の結果の、構造変異を検出した場所(Segmental Duplication以外の場所で)を見てみます。


  • 10xGアセンブリ、PacBioアセンブリ共に、数千~1万強の、挿入、欠損部位を検出した
  • 10xGアセンブリの方が多くの欠損変異を検出し、5,573個は、PacBioアセンブリでは検出していなかった
  • 反対に、2,693個の欠損変異は、PacBioアセンブリでは検出され、10xGアセンブリでは検出されなかった


【欠損:10XGで検出されたがPacBioで検出されなかった5,573のうちの1例】
これは、10XGのアセンブリでは176bpの欠損を示していた箇所。
リファレンスには確かに176bpあり、PacBioのアセンブリでも、アセンブリ前の補正後リード(p-reads)でも、確かに176bpがあった例。
この箇所は、GCの連続配列で、10xGが使用しているショートリードでは読めない。
なので間違ってコールされてしまった例。

ほかランダムに抽出した9例

最初の1例を合わせた10例のうち、8例は擬陽性だった。

【欠損:PacBioアセンブリでは検出されたが、10xGでは検出されなかった2,693例のうちの1例】
この配列も、GCが多い場所で、10xGでは読めていない。しかし、この場所には、リファレンスには無い58塩基の欠損領域が、PacBioアセンブリから検出できている。
しかもそれは、ヘテロ欠損。
研究者なら、このようなヘテロな場所の変異に、より興味が湧くのでは深いのでは?

ほかにランダムに抽出した9例
先の1例を除き、全てで10xGのアセンブリでは、読めていない箇所に、実際は欠損変異が存在した。

ということで結論、
読めない配列が原因でコールされた変異は擬陽性の可能性が高い
読めない場所から変異をコールするのは不可能
10xGのデータだけに頼って解析していては、重要な変異を取りこぼすことになる

今回は欠損変異だけに注目しました。(スライドはJasonさん作)

どんな技術もそうですが、それだけに頼って解析していては、見落とすものは必ずあります。 なのでバリデーションは大事。
特に、比較的新しい技術に関しては、一見素晴らしいように見えても、欠点もちゃんと意識して使わないと、レビューワーから突っ込みを受けることになりますね。

10xGユーザの方は、上記のような擬陽性の可能性もあることを考えて、一度、PacBioで読んでバリデートしましょう!!

2016年11月7日月曜日

アメリカ人類遺伝学会 ASHG PacBioネタ

ちょっと報告が遅れましたが、ASHG@バンクーバーのPacBioネタです。

初日のマクロジェン社のランチョンでは、10Kアジア人ゲノムプロジェクトの話がありました。当然PacBioのにとも何人か参加していましたよ。もちろん私も。
韓国人ゲノムAK1は、最近論文になりましたよね。
これからはアジア人を10000人、読みまくる!という威勢のいい話でした。
もちろん全部をPacBioで読むわけではないでしょう。

二日目はPacBioのランチョンセミナー
これはもう、YouTubeで紹介されていますので、興味のあるひとはここを是非チェック!

「ヒトゲノム+構造解析」は、これからのPacBioの大きなテーマです。
今までは、ゲノムアセンブリに注力してきたPacBioですが、アセンブリの分野ではもうグローバルスタンダード、になりました。
これ以上長く読める、技術的にも安定したシークエンサーは、今のところPacBio以外存在しない! というのは過言ですが、客観的に言ってもPacBioのSMRTテクノロジーは素晴らしい技術です。
巷ではナノポア技術が競合とみなされているようですけれど、まだまだ実績が違う。
PacBioで読んだ結果は、ちゃんとこれまで1700本の論文になりましたから。
PacBio は、サイエンスが議論できるレベルのシークエンサーです!


さて、学会期間中に新商品やサービスをアナウンスするのは企業によくあるパターンですが、PacBioもやってくれました。
その名も、新試薬、バージョン 1.2.1 for Sequel
て、地味だ。地味すぎる・・・

いまのSequel 試薬が1.2で、それの新しい版が1.2.1
やっぱり地味だ。

でもこの試薬のすごいところは、Sequelの最初の必要DNA量は変わらないけれど、そこからランできるSMRT Cellの数が増えたこと。
ゲノムDNA20ugくらいからスタートして、今までSequel は数セルしかランできなかったけれど、10セル程度かそれ以上ランできるように、ライブラリ作製効率が上がった(注:この辺の数字は大きくサンプル依存)。
具体的には、プレート上にロードするDNA濃度は、RSIIと同じ、6.5~40 pMになった。
プライマーも新しくなった。
その他、試薬ではないけれどロボット系の動きも少し変わった。

ベータテストの結果、20kb以上の長いライブラリ(w/ サイズセレクション)を読んで、出力は1セルあたり5~7Gb
平均リード長は10kb、11kbくらい(平均ではなくてN50 ならもっと長いですけどね)
バクテリア、植物、ヒト細胞から同じような出力結果が出ているようで。

さらに来年春のアップデートではもっと大きく改善する予定。
と、その時に名前は 1.2.2 とかではなくて、もっとインパクトがあるものにして欲しい!


2016年11月5日土曜日

PacBio v.s. Oxford Nanopore 特許侵害訴訟に! うーん、仲良くやりたいんだけどなあ

11月3日に飛び込んできたニュース
この話は書こうかどうか迷ったけれど、これは一応個人のブログだし、PacBio社も2日経っても公式に何も言っていないので、好き勝手書きます。

PacBioがOxford Nanopore Technologiesを、特許侵害で訴えた
ニュース記事はこちら

これはですね、PacBioが2013年4月に出願していた特許「U.S. Patent No. 9,404,146」が、今年の8月に公開され、その中に記載されている請求項のいくつかが、ONT社が使っているテクノロジーに抵触している、ということ。
で、この特許・・・146は、すごく広範囲を抑えているんですね。私も全部読んだわけではないですが、キーは、「二本鎖の一分子DNAを、Sense・Anti-sense両方読む」というところが、どうやらONTの2Dシークエンス技術が侵害している、ということらしいです。

PacBioは、ダンベル型のライブラリを作って読むので、二本鎖DNAの両方のStrandを、片側ずつ何度も読むことができるCCSという方法があります。
ONTも、片側ダンベルアダプターをつけて、二本鎖DNAの両方のStrandを、片側1回ずつ読む、2Dシークエンスという方法がある。

また、この特許・・・146は、一分子DNAをそのまま読む、という方法論についてもカバーしている。
つまり一分子シークエンサーは、ことごとく抵触してしまう!

この特許は、国際出願されていないらしいので、とりあえずアメリカマーケットが問題になるのでしょうね。でもアメリカは世界最大のマーケット。日本への影響は多大でしょう。

この宣戦布告の発表があったその日、PacBioの第3四半期の発表もありました。
絶好調とまでは言わないまでも、これまでにSequelを75台も売り、アップデートの予定など今後の見通しも明るい、というものでした。
でーも、特許侵害のニュースのインパクトの方が大きかったのか、翌日の株価は20%の下落!
まあ、「トランプ大統領候補が勝つかも知れない不安」のせいで、Nasdaqも全体的に少し下げたんですが、20%は無い。


私は、個人的には、仲良くやって欲しいというのが本音です。
知っているひとは知っていると思いますが、前からの友人もいますし。
立場上、ライバルなので言うことは言いますけどね。
でも一緒に業界を盛り上げていこう、という気持ちです。

これからどうなるのか。

2016年10月19日水曜日

アメリカ人類遺伝学会 ASHG GIBとリファレンスゲノムの話

ASHGに来ています。今日は初日。
午後1時からの Genome In a Bottle とリファレンスゲノムのセミナーを聞きました。
Genome In a Bottle(GIB)といえば、前にも書いた気がしますが、ヒトゲノムのリファレンスマテリアル(リファレンスゲノムとは違う)をいくつか決めて、そのゲノムを様々な技術で読んで、変異解析をする、そのスタンダードを決めようというプロジェクト。
今はNA12878、Ashkenazim Trio、Asian などが、リファレンスマテリアル(RM)として解析されています。

RMは誰でも買うことができます。
新しい解析パイプラインを開発するひとは、RMを基準(スタンダード)に開発すれば、世界的な信頼性が得られるということ。
これから出てくるであろう新しい技術もそうですね。こういうスタンダードは必要です。

GIBでは様々な技術を試して、そのデータを公開しています。
Justin Zook氏のプレゼンより

この中でも特に、PacBioのデータは、ここ数年でデノボアセンブリの「スタンダード」になりました。
で、PacBioと親和性の高い新参者テクノロジーとして、Dovetailがあります。
同じくZook氏のプレゼンより
AJ Son のアセンブリでいうと、PacBioとDovetailで、Scaffold N50 が 12.9 Mb - 20.6 Mb になっている。
もちろんこれらはドラフトアセンブリなので、クオリティはどうかわかりません。
でも、後でJustinさんと話したのですが、10XもDovetailも、理論的にはPacBioアセンブリを補正(つなぐという意味で)するのにとても向いています。
ただ、10XとDovetail、あとBioNano を、まだ比較はしていないそうです。

Justinさんは、昨年来日して、沖縄と東京で講演しました。
「そのときに比べて、ずいぶん新しい結果が出てきましたねえ」と言ったら、「もう新しい技術が出すぎて大変だよ。やることたくさんある」と笑顔で返されました。

さて、彼のプレゼンは、Slide ShareにUPされていますので、参照したいかたはどうぞ。
ほかの演者のプレゼンもアップされるそうです。

アセンブリの話で、FalconのようにDiploid のアセンブリができるようになったけれど、それを表現するファイルフォーマットが必要、というのがありました。確かに!
Fastaではうまく表現できないですよね。
あとViewerも。誰が世界標準を作るのか?

GRCh38 のゲノムには、Alternative Loci配列がたくさんあるのは知られていますが、これが結構頻繁にバージョンアップされているのは、事実です。
じゃあ、今のバージョンでマッピング→変異解析 してデータ集めているひとは、バージョンが変わったら、やり直す方が良いんですかね?
主にショートリードでヒトゲノムをがんがん読んでいるひとには、結構クリティカルな問題だと思いますが、皆さんどうしているんでしょう?

なんか、パーソナルゲノムがどんどん読まれている時代だと、GRCh38にマップして解析するより、人種が近いゲノムを使って解析し直したほうが良い気がします。
そんなふうに思いながら、セッションを聞いていました。

セッション自体はそんなに大きな部屋ではなかったですが、第一線でリファレンスゲノム作っている研究者が集まっている感じでしたね。PacBio、BioNano、10Xのひとももちろんいましたし。
だんだん知り合いが増えてきた感じ。

Diploid のアセンブリ、Falconといえば、先日改良版の Falcon-Unzipが Nature Method の論文になりましたので、こちらも参照くださいね。


2016年10月17日月曜日

Genome 10K、Bird 10Kプロジェクトに、PacBioシークエンサーが本格採用!


Genome 10Kプロジェクト、って知っていますか?
UC サンタクルーズの David Haussler博士、サンクトペテルブルグ州立大学のStephen J. O'Brien 博士、UC サンディエゴ・サンディエゴ動物園の Oliver A. Ryder博士らが中心となって、2009年に設立した、国際ゲノムコンソーシアムです。
脊椎動物を中心に、10,000種類のゲノムをどんどん読んで、がんがん決めていこう!

その後、2015年に、現ロックフェラー大のErich Jarvis博士、BGIの Guojie Zhang 博士、コペンハーゲン大の Thomas Gilbert 博士らが、鳥類のゲノムシークエンスプロジェクト(B10K)を立ち上げ、2020年までに10,000ゲノム以上を読む計画です

今、自然動物・植物のゲノムを決めていこうというプロジェクトが動いています。
私はまだ参加したことが無いのですが、PAG (San Diegoの方)ではそんな話題がたくさん聞けるんでしょうね。恐らく。

この2つの大きなゲノムプロジェクトにはこれまでも、PacBio RSII が使われてきました。
例えば、ハチドリのゲノムシークエンスの場合、ショートリードで解析したときに124,000 本のContigだったのが、PacBioを入れることで1,000本までに減らすことができた、とのこと。(PacBioのブログより)
Jarvis博士らは、既にSequelを2台注文、さらに3台購入の予定もあるらしく、この次世代マシンで数千種のゲノムを読み進めていくとのこと。

いやはや、Sequelの発表からもう1年。
Sequelが、このような大きな国際プロジェクトの現場で使われ始めると聞いて、正直嬉しいです。

今週はアメリカ人類遺伝学会
新しい発表がありますよ。お楽しみに!





2016年10月13日木曜日

アメリカ人類遺伝学会 2016 の前振り

今日は手抜きです。
一昨日、NGS現場の会のメーリングリストに流した文章を再利用しますです。

-----------------------------ここから手抜き---------------------------
NGS現場の会の皆様

こんにちは、トミーデジタルの大崎です。
来週は、アメリカ人類遺伝学会(@バンクーバー)です。
というわけで今回は、ロングリード界の巨人・PacBio社と、ショートリード解析の革命児・Edicogenome社が、本学会中に企画しているイベントのご紹介です。
アメリカ行かないよ、という方も、PacBioのセミナーの方はストリーミング&ビデオレコーディングがあります

Edicogenome社 モーニングパネルディスカッション】
Insights From the Front Lines of Precision Medicine

Baylor College of Medicineや、Johns Hopkins UniversityHudsonAlpha Instituteなど、米国Precision Medicineをリードする研究所では、既にEdicogenome社の超高速NGS解析サーバ・Dragenが活躍しています。
大量NGS解析の世界標準になりつつある、Dragenサーバ
各研究所の第一人者が集まり、クリニカルNGS解析の現場と、必要とされる解析技術について、ディスカッションを行います。

日時:1019日(水) 7:15 AM - 8:45 AM
場所:East Ballroom C, East Building - Vancouver Convention Center
事前登録はこちらから

はい、朝早いです。バンクーバーの朝は寒いでしょうねえ。
でも暖かい飲み物、食べ物が用意されているはず、なのでご安心を。
--------------------------------------------------------------------------------------------------------------

PacBio社 ワークショップセミナー】
Discovering and Targeting Causative Variation Underlying Human Genetic Disease Using SMRT Sequencing
Precision Medicineをテーマに、PacBioSMRTシークエンスが切り開く新たなクリニカルシークエンスの未来を、2人の研究者が紹介します。
そのほかにも、PacBio社からのアップデート発表がある予定ですので、是非お越し下さい。
毎年、満員御礼、立ち見が出ます。事前登録必須です!

日時:1020日(木) 1:00 PM - 2:30 PM
場所:Pan Pacific Vancouver Hotel, Crystal Pavilion (Vancouver Convention Centerの隣り)
事前登録はこちらから

北米的な(サンドイッチ的な)ランチが提供される予定です。

そのほか、PacBioテクノロジーが関わるサイエンスの発表はこちらです
20日のワークショップセミナーに参加するひとは、19日のポスターチェック!で予習OK
---------------------------------------------------------------------------------------------------------------

ブースにも是非お越し下さいね。 
(PacBio #718Edicogenome #817)
10/19(水): 10:00 AM - 4:00 PM
10/20(木): 10:00 AM - 4:00 PM
10/21(金): 10:00 AM - 4:15 PM

また、Edicogenome社、PacBio社の担当者と、個別に話がしたい!という方は、ご遠慮なくお知らせ下さい。
わりと自由にミーティングを設定できます。
「一緒にブースに行きたい!」でも結構です。

では

------------------------ここまで手抜き-------------------------

さてさて、私は上記2つの会社のイベントには当然出るのですが、もちろん裏イベントにも参加します。
このブログで紹介できることは、できるだけアップするつもりですので、また来週以降をお楽しみに!

2016年10月7日金曜日

PacBioでヒトゲノムアセンブリ 韓国人ゲノムがNatureに

昨年のNGS現場の会でも話した、PacBioでヒトゲノムを読んでアセンブリした件
ここのブログでも度々登場した、韓国でのリファレンスゲノムプロジェクトが、ついにNatureにPublishされました!

このことはGenome Webにも記事になっています。では引用しつつ説明しますね

このプロジェクトはソウル大の教授でもあるマクロジェンの会長、Jeong-Sun Seo氏を筆頭に、数年前から行われてきました。
使われたプラットフォームは、PacBio RSII、BioNano Irys、Illumina HiSeq、BAC clone sequencing、そして10X Genomics GemCode
つまり、ロングリード、フィジカルマッピング、ショートリード、サンガー、リンクシークエンスなどなどを総動員して行なわれた、一大プロジェクト。

そもそもの目的は、今のリファレンスゲノムはヨーロッパ人由来のものであり、アジア人には適していないのでは無いか? ということで、アジア人のリファレンスゲノムを作ろう!ということでした。
アジア人といっても広いので、マクロジェンとしては、先ずは韓国人だろうと。
AK1ゲノムと呼ばれています。

余談ですが我が国では、東北メディカルメガバンク機構が、PacBio RSIIのロングリードを使って日本人ゲノムをアセンブリ、その結果を韓国チームより一足早く、公開しています


さて、韓国人ゲノムの話に戻ります
メインに使った機械はもちろんPacBio RSII で、なんと380セルを使用し、101xのカバレッジ量の塩基を出力しました
PacBioのデータだけを使ってFalconアセンブリした結果は、Contig数が 3,128本、N50は 17.9 Mb !
これだけでも十分すごいです。
このContigデータを Irys でscaffold して、2,832本のScaffold、N50 は 44.8 Mb !!
さらに、HiSeq X Ten のデータとBAC のSangerシークエンスデータ、10X のリンカー配列を使用して、ハプロタイプフェージングを求めたらしい

もっとも長いScaffoldはなんと113Mbで、5番染色体を完全にカバーしているとのこと。
さらに8本の染色体アームはそれぞれ1本のScaffoldでカバーされていた。

また、現在リファレンスとして良く使用されているGRCh38ゲノム配列にもGapがたくさんあることがわかっていますが、これらのうち65個のGapは完全にふさぎ、また72個のGapを短くすることができたそうです。こういったGapにはTandemリピートが多く、ショートリードではふさぐことが不可能であった。

Seo氏曰く、このプロジェクトにかかったコストは、170万ドル
決して安いとはいえませんが、リファレンスゲノムを一から決める、という大きなプロジェクトにしては、どうでしょう。臨床に使え得る、プラチナゲノムを目指すからには、これくらいの規模は必要なのでしょうかね。


このAK1アセンブリは、Asian Genome Projectの第1フェーズでして、第2フェーズは1万人のコホートシークエンスです。
Seo氏曰く、既に3000人の日本人、3000人の韓国人、1000人のモンゴル人、のケースコントロールをシークエンスしていて、今は中国人を追加しているそうです。
これはさすがにショートリードでしょうけど。


さらに100Kプロジェクトというものもあるそうで、どんどんシークエンスが大規模になってきていますね。
マッピングや変異解析が大変だって?
大丈夫、今の時代は問題無いです。
DragenというFPGA使った超高速サーバ、ご存知ですね?
知らないというひとはとりあえずこちら
マクロジェン社も持っている

このサーバ、20分で30xのイルミナデータのマッピングー変異コールができるんです。

話がずれちゃいましたね。 はい、
PacBioでヒトゲノムデノボアセンブリの話でした


2016年10月1日土曜日

Sequel データ ついに公開!

Sequelのデータはどんなものか見てみたい!
という方のために、ようやく、オープンにできるデータセットがウェブにアップされました。
待ちに待ったという感じです。2015年10月1日のSequelリリースから早1年。
(今まで、オープンにできる程の「満足なデータ」が出ていなかった、というのも一方で事実です・・・)

今回公開されたシークエンスデータは、Arabidopsis thaliana  Ler-0 ゲノムを、Sequelの1M SMRT Cell 2つで読んで得られたもの。


ひとつ注意点として、このデータは、2016年9月現在の試薬・プロトコルを使ったランではありません。
今のケミストリーのローディングを向上させた、次バージョンの試薬・プロトコルを使用しているそうです。

先ず、20 μg のきれいなゲノムを 32 kb でシェアリング、ライブラリ作製した後、Blue Pippinで 20 kb サイズセレクション
12セル分のライブラリが回収できて、そのうち 2セルを6時間シークエンス
ローディング効率としては、on plate 濃度が 144 pmol ーこの数字はRSIIと同じです。(今までSequelでは、RSIIより遥かに多いDNA量を要求されていました)

この2セルから出てきたデータの集計です
総塩基数 10.8Gb(1セル5Gb)
MappableなサブリードN50が14.8kb!(注:平均サブリードではなく、Mapped サブリードのN50)
今回公開されたデータの注目すべき点のひとつは、20kbサイズセレクションされたロングライブラリーも、RSIIと同じくらいの長さのシークエンスができたことです。
今まで「数kbのショートライブラリならちゃんと読めるけれども、10kb以上のロングライブラリは、Sequelではまだ十分読めない」ということを、噂で聞いたことがあるかもしれません。ええ、本当です
でもこのデータで、新試薬からは20kbロングライブラリにも十分対応できることが示されました、ね。

もうひとつの注目点は、先にも挙げた、ローディング効率です。
RSIIと同じ、144 pmol のライブラリ量でもシークエンスできるようになったことで、ライブラリ作製の手間とコスト、必要DNA量がだいぶ抑えられるようになりました。
とは言ってもまだ20μgからスタートしていますので、少ない量とは言えませんが・・・。


生データもダウンロードできます。
Subread.bamという、シークエンスデータなのにBAMファイル!!です
Sequelの生データについてはまた別の機会に

ちなみにアセンブリ結果はこちら
Falcon Assemblyの結果、Contig N50は10.4Mb
表の一番右がSequelの結果で、その隣、比較対象がP5C3って・・・。
P6C4との比較は無いの!? という突っ込みはさておき、Sequelでもちゃんとここまでの結果出ますよ、的な結果でした。

2016年8月29日月曜日

Sequel Update ~ 2016 8月のプレスリリースより

今から約3年前、2013年9月の、「Roche社から7500万ドルの出資を受けてRoche社向けの新しいシークエンサー&アッセイシステムを開発する」というニュースは、驚きと共に色んな憶測を呼びました。
その2年後、2015年10月に、Roche社向けに開発していたはずのシークエンサーが、突然公に姿を現し、またまた大きな反響を呼びました。
もちろんこれまで大きな出資を受けて開発された経緯もあり、ロッシュ社が大口のユーザになることは予想できたでしょう。

新しい機械が登場すると、いろんな予想や憶測、将来の展望や業界のシェアなど、話題が豊富になりますね。
Sequelもその通りで、これによって何が可能になるか、が、いろんなところで議論されました。


そして、今年に入り、Sequelの試薬、プロトコル、ソフトウェアのアップデートが頻繁に、まるでRSの導入時のように頻繁にありました。

ご存知のかたもいるかもしれませんが、RSは日本に入ってきたとき、C1というケミストリーからC2に変わる時期でした。
なので、それこそ毎週のようにソフトウェアのアップデートがあったりしたものです。
ユーザのかたにはご迷惑かけましたが、最先端の装置はアップデートでどんどん良くなっていく、ということでご理解いただけたかと。

実際、C2になって、平均リード長が2,000 bpへと向上!しましたし、装置もだんだん安定してきましたしね。
C2から始まり、XL-C2、XL-XL、P4-C2、P5-C3、P6-C4 と、酵素&ケミストリーがバージョンアップし、ソフトウェアもSMRT Analysis 1.xから2.3まで更新され、光学系のバージョンアップでリード数が2倍になり(RS -> RSII)、マグビーズステーションの導入で長いライブラリも効率良く読まれるようになり、ステージスタートで長いSubreadがより多く得られるようになりました。
プロトコルもたくさんつくられ、デノボシークエンス以外にも、Iso-Seqやターゲットリシーク、HLAアンプリコンシークエンスなどにも対応できるようになりました。

さ、て、

いまのSequelはどうでしょう?

Sequelについては、8月5日に、GenomeWebにて、アップデートが報じられています。
こちらは公式な発表なので、ブログに書いても良いでしょう。


(前情報として、2012年の夏から、PacBio社はベルギーのImecと共同研究を始めています。ナノフォトニクスCMOS技術についての共同開発らしいです)

Sequel用SMRT Cellの生産は、開発されたImecから、現在、大量生産できる企業に移している最中("in the midst of transitioning to a high-volume supplier")だそうです。
Cellのパフォーマンスは、量産体制が確立され次第、より向上するだろう、とのこと。

Jonas Korlach CSO は、記事の中で、アップグレードを重ねた最新のデータでは、平均5Gb/Cell (3~8 Gbのレンジ)、平均リード長は8~12kbが出ている、と言っています。
(注! インサートの長さについては述べられていません)
しかし Piper Jaffray 社のリサーチによると、ユーザからは平均2kb~6kbのリードしか出ていないそうです。
これについて、Hunkapiller CEOは、パフォーマンスが悪い原因は、Cellの供給元がまだプロトタイプサプライヤーで、量産体制でないためである、と説明しています。
パフォーマンスは今後、大幅に改善 "substantially improved" されるとのことです。


つまり、現在パフォーマンスがイマイチだという声があるが、これはまもなくCellの大量生産体制が安定すれば、大幅に改善されるということ。

今でも Korlach CSOの言うとおり、とても良いデータが出ることもあるでしょうが、安定してどのセルでも良いデータが出ることが大事ですよね。

これまでPacBioは、「次はこうなる!」って言ったことは、まあまあ実現できているので、今回もCEOのMike Hunkapillerが公式に説明していますから、私は前向きに考えます。
"will be substantially improved"

2016年8月22日月曜日

ヒトゲノムとPacBioロングリード 国内シンポジウムのお知らせ

前回のブログにも、Precision Medicineとヒトゲノムシークエンスについて書きましたが、アメリカ人類遺伝学会に行かないかたでも、東京&沖縄で、来月シンポジウムがあります。
今日はそのお知らせです。

主催はPacBio RSII のスーパーヘビーユーザーさんでもある、一般社団法人 沖縄綜合科学研究所。
9月7日(水)は那覇市、パシフィックホテル沖縄にて
9月9日(金)は東京浜松町の世界貿易センタービルにて

どちらもこちらのウェブサイトから詳細が確認でき、参加登録もできます。

日本語の発表と英語の発表が半々くらいで予定され、どれもPacBioを使った最先端の研究の発表になると思います。
台湾からのDr. Meiyeh Luは、アジアユーザーミーティングでも発表されました。エネルギッシュな女性でとにかく話すのが好きな感じでした。そのときは感染症バクテリアなどのゲノムシークエンスがテーマでしたが、今度はどうでしょう。

PacBioからはDr. Meredith H. Ashby 彼女もまた、話すのが好きな女性です。ま、女性はたいてい皆そうですかね。
Meredithとは何度かPacBioの本社で会って話したことがありますが、大学時代に日本語を取っていたそうです。でも日本に来るのは今回が初めてだそうで、楽しみにしていました。
なので今回の発表も期待できますよ。

アメリカからのゲストスピーカーは、Dr. Robert P. Sebra 彼は何度か日本にも来ていますし、私たちが主催した「PacBio現場の会1&2」でも発表してくれましたので、覚えているかたもいるのでは?
恐らく世界で一番、PacBioの装置を動かしているし経験もあるグループでしょう。
所長さんは元PacBioのCSO(最高科学責任者)で、Robertさんもまた元PacBio社員、他のラボのPIにも元PacBioがいるそうですから。
こちらの発表も期待できます。


どちらも午後1時半から夕方5時くらいまでの半日セミナーで、参加も無料だそうです。
PacBioに関する情報収集にはとても良い場だと思います。
シンポジウムやセミナーを企画して、会場手配して、演者のスケジュールを確保して、段取り決めて、って、いろいろ結構大変なんですよね。
だからこういう機会は、とっても貴重ですよ。

できるだけ事前参加登録をお願いしているようです。

と、ここまで言っておきながら、残念ながら、私は別の予定があって、参加できないんですよ。
行きたかったですが・・・。

2016年8月18日木曜日

Precision Medicine (プレシジョンメディシン) とロングリード

皆さん、Precision Medicineという言葉、聞いたことあると思います。
これが何を指すのかというと、「現在のゲノム解析技術と知をフルに活用して、個人に合ったオーダーメイド医療、予防医学も含めて、実現しよう!」というものではないでしょうか?
私の理解はそんなところです。皆さんそれぞれ少しずつ違った解釈をされているかもしれませんね。

しかーし、ここで英語の問題を1問。
「PrecisionとAccuracyの意味の違いを述べよ(PreciseとAccurateの違いでも良い)」

さあ、わかりますか?
普通に辞書引くと、どちらも正確性あるいは精度とか書いてあるかもしれません。でも、厳密には違いますよ。

答え:
Precisionとは精度。何回も測定してどれも近い数値が出た場合、精度が高いといい、再現性が高い、とも言う。
Accuracyとは正確度。測定結果が真の値に近い場合、正確度が高いといい、確度が高いとも言う。
なので、いくらPrecisionが良くても(同じゲノムを何回解析してほぼ同じSNVが測定されても)Accurateで無い場合(真の変異では無い)もある
(ググれば例が出てきますが、私がわかりやすいと思ったのはここ


イルミナ社の超並列高速シークエンサーによって出される膨大なデータは、ゲノム解析を革命的に進歩させ、ある種、Precision Medicineをリードさせたと思います。
でも、Preciseではあるかもしれないけれど、真の変異をコールできていないかもしれない、というところがネックでした。

スタンフォード大のDr. Deweyらが、JAMAに2014年に発表した論文、「Clinical Interpretation and Implications of Whole-Genome Sequencin, JAMA. 2014;311(10):1035-1045」によると、56の重要疾患遺伝子について、ショートリードで30X読んでも、10本未満のリードしかマップされなかった(読まれなかった)遺伝子は結構多かったらしいです(下図)。
JAMA. 2014;311(10):1035-1045

また、想像つくかもしれませんが、ショートリードだけに頼るゲノムリシークエンスでは、

  1. リードより長いリピート配列は検出できない(3塩基繰り返しリピートなどは検出不可)
  2. 多型性が高い配列(HLAなど)で数キロに及ぶハプロタイプを求めるのは困難
  3. 大きな(1000bp以上の)構造変異を検出するのは困難

です。

そこで、ロングリードで、低カバレッジで、正確に変異を検出することが大事になってくるわけですね。

先の論文の著者でもある、Dr. Euan Ashleyは、先日Nature Reviews Geneticsにレビューを発表しました。
リンク先はこちらです
パーソナルゲノム、クリニカルゲノムシークエンス、などの分野に携わるひと、これからやろうと思っているひとは、このレビューを読むことをお勧めします!

ちなみにAshley博士は、Personalis社の創始者でもあるのです。Precision Medicine のまさにオピニオンリーダーですね。

またこのレビューの内容の一部は、YouTubeでも公開されているので興味のあるかたはこちらもどうぞ

最後に、Ashley博士は、今年のASHGでも、PacBioのワークショップで講演します!
行くひとは是非チェック!!