2016年12月31日土曜日

今年最後は・・・Quiver と Arrowの話 我ながら地味

2016年、大晦日です。
紅白見ながら書いてます。PPAP、ゴジラ、真田丸、ブラタモリ。
今年は面白いな。

さて今年最後の投稿は、地味なネタです。
QuiverとArrowの違いであまり知られていないこと
GitHubのサイトでもあまり詳しくは説明されていないので、少しお話しします。

【はじめに】
QuiverとArrowは、どちらも、CCS(Circular Consensus Sequence)を作るアルゴリズムに由来します。
QuiverはRSIIのデータ用、ArrowはSequelのデータ用の、コンセンサス配列作製アルゴリズムです。
SMRT Analysis v2.3 まではQuiverが標準搭載されていて、v3.x からはArrowになりました。
v3.xは、SMRT Linkというパッケージソフトになったのですが、引き続きSMRT Analysisという名前も解析用ソフトとして使われています。
SMRT LinkでもP6-C4のRSIIのデータは解析できるよう、Arrowも対応されました。

【QuiverよりArrowの方が精度が高い】
CCSを作るとき、Quiverベースのアルゴリズムでは、何回パスを重ねても平均QVフレッドスコア30くらいで精度に限界がありました。
また、ホモポリマーもうまく認識できないという欠点もあったそうです。
これは様々なクオリティ値を使ったエラーモデルが複雑すぎて余計ノイズになったとか。
そこで開発されたのがArrowというアルゴリズム。
トレーニングモデルやエラーモデルをより単純にし、またZMWごとの違いを考慮するようにした。(2016年アジアユーザグループミーティングより)

Arrowを使ったCCSは、パスを増やすとQVをフレッドスコア50、60に高めることが可能になりました。
Old = Quiver, New = Arrow

【QuiverよりArrowの方が使っているQV値は少ない】
普通、シークエンサーから出力されるリードの塩基には、その塩基をその塩基であろうとしたクオリティ値(QV)があります。
つまりAである塩基をAとコールしたとき、Cではなく、Gでもなく、Tでもなく、Aであったという「確からしさ」を表現する方法として、QVがあります。

RSIIは、ベースコールの結果、各塩基ごとのQVのほかに詳細QV (DeletionQV, InsertionQV, SubstitutionQV, SubstitutionTag, DeletionTag)という複数のQVを出力し、Quiverはこれらの情報も利用してコンセンサス配列を補正します。

Sequelは、これら詳細QVは出力せず、各塩基ごとの全体のQV(QUAL/FASTQ qv)のみを出力します。
(実データを見たことがあるかたは、現在のSequelリード BAMファイルではQVの情報が全て「!」になっているのに驚くかもしれません。この問題は次バージョンで改善される予定です)
ですがArrowではそもそも、塩基ごとのQVを使用しません!

ではArrowは何のデータをもとにエラー補正&コンセンサス作製をするのでしょう?
Arrowは、

  1. 各リードのシグナルノイズ比
  2. 各塩基のパルス幅の情報

この2つを使用して、マッピング後のコンセンサス配列を補正して作ります。
これらの情報は今もリードBAMファイルに記載が有ります。

P6-C4のRSIIデータも、Arrowを使えます。
このときは、RSIIデータ(bax.h5)をSequelのBamファイルに変換し、リードごとのSN比と各塩基のパルス幅情報を使って、Arrowが使われます。
結局、補正に使うデータを単純にしたほうが精度が上がったということでしょう。

今後、Arrowで塩基ごとのQV(詳細QVではなく、全体のQV)が使われるようになるかは、現在のところ何ともいえません。
精度が向上するようであれば、使われるようになる可能性はあります。



ああー、もうすぐ2016年も終わります。
しかし笑ったのは、白組の方がダントツで票が入ったのに何故か赤組が勝った、というアメリカ大統領選挙よりも摩訶不思議な紅白歌合戦。
明日の新聞で説明あるかな?

また来年も宜しくお願いしまーす!
2月7日の「PacBioセミナー@秋葉原」も宜しく

2016年12月16日金曜日

Rocheとの別れ


年末になってまたまたビッグニュースが舞い込んで来ました。
2013年から続いていたRocheとの提携が、解消されることになったという。

いろんな噂が出る前に、ちゃんとした情報を取っておこうと思い、投資家向けテレカンを聞きました。
細かい内容は明らかにしてはいけないのでここでは書けませんが、これはプレスリリースにもあるとおり、Roche側から提携の延長をしないという判断がされたそうです。

Sequelの開発は、Rocheの資金協力のおかげもあったので、長い目でみたらお互いWin-Winの関係を築けていただろうに。そう思うと残念です。

とは言ってもなぜRocheが提携をやめる判断をしたのか、は、Roche側のビジネスの問題です。
3年前と今とではインビトロ診断領域のビジネス環境が変わった、というのがRocheの判断につながったのでしょうか。
装置を売るよりも、どのメーカーの装置にも対応したアッセイキットを作って売った方が儲かる!と考えたのなら理にかなう、かな?

でも、RocheのおかげでSequelができて、PacBioのターゲットが大きく広がったのは事実なので、ありがとうございました。

つい先日発表されたPacBioのrevenueも、大きく増えたし、Sequel装置もパフォーマンスの向上でだいぶ良くなった。

今後はどうなるのか? 
株は売られましたが、まだ大丈夫でしょう。

どこかと提携する可能性はあります。
個人的には、本社すぐ隣のFacebookとかが興味示してくれたらなー、と思っています。
シリコンバレーという場所柄、お金持ちが多いですからねえ。


2016年12月13日火曜日

2017年もやります! PacBioセミナー@秋葉原

12月も中旬になると、東京も急に寒くなってきました。
毎年、分生が終わったこの時期は、忙しいはずなんだけど・・・「今年も良く働いた!」というへんな達成感がある。あとは飲み会?Year End Party

さて、来年ですが、2月7日(火)に、また秋葉原UDXで「PacBioセミナー」やります。
今回は午後からの半日セミナー。
なぜ午後からかというと、朝から5時まででは長い!という意見が前回あったから。
そこで今回は1時から5時までで、英語での発表はひとつ、PacBio本社からのみ。

NGS現場の会のメーリスにも流しましたが、
今回の名前はシンプルに「PacBioセミナー」。
なぜ「PacBio現場の会」にしなかったかというと
  1. 同じ年にNGS現場の会があるので、社内で「現場の会の準備」と言っとき、「え?どっちの?」とややこしいから
  2. お客さんに紹介したとき、「え?どっちの?」とややこしいから

いう理由でした。

PacBioセミナー 2017
ロングリードが世界を変えた!

【日時】
201727日(火)
午後1時スタート(受付開始は1230分~)
午後5時半頃終了予定(その後懇親会あり)
参加料金は無料! 

【場所】
秋葉原UDX

【事前登録制】
ここからかならず登録してくださいね(そのページの一番下に入り口あります)

日本にPacBioが導入されてからまもなく6年目を迎えます。(ということは私も今の仕事してから6年目ということか・・・)
バクテリアゲノムから大型真核生物ゲノムまで、様々なところでSMRTテクノロジーのスーパーロングリードは活躍してきました。今回は、ヒトゲノム、植物ゲノム、そして新型機Sequelにフォーカスしたセミナーを行ないます。もちろん、そのほかのアプリケーションやバクテリアゲノムも忘れません!

今回も、豪華な演者の先生方をお招きします。
  • 芦澤哲夫先生(Houston Methodist Neurology, Director);ショートタンデム反復の拡張と神経遺伝疾患との関連性の研究がご専門。米国NIHの組織するSCAコンソーシアムのリーダー
  • 安田純先生(東北大学 東北メディカル・メガバンク機構 教授);日本人基準ゲノム配列(JRG)をPacBioを用いて決定。このプロジェクトの中心メンバー
  • 榊原康文先生(慶應義塾大学理工学部生命情報学科 教授);11月にNature Communicationsに発表され注目を浴びたアサガオゲノム。その解析チームリーダーでバイオインフォマティクスがご専門
  • 豊田敦先生(情報・システム研究機構 国立遺伝学研究所 特任教授);ゲノム支援・先進ゲノム支援の枠組みの中でPacBio RSIIを様々なプロジェクトに活用され、日本で最もPacBioを使われているユーザのおひとり
  • ほか交渉中演者数名

PacBio本社からは、アメリカでのPacBio応用例をご紹介します(Luke Hickey, PacBio)。
さらに、PacBioアプリケーションアップデートの発表や、今話題のDovetail Genomics(ゲノムアセンブリ専門の受託サービス)、Swift Biosciences(少量DNAからのショートリードライブラリ作製キット)の紹介、NGS関連商品の紹介などもする予定です。

今回もPacBioに興味のある現場の方や、ロングリードの可能性に期待する先生方が一同に集まる貴重な場になると思います。
是非この機会にご参加下さい。

しつこいですが事前登録制です。
このページの一番下から、Googleフォームへのリンクへ行って、レジストしてください。
入り口がわからない方は、ここから直接どうぞ

懇親会は、会場近場で18:00から予定しています。

是非こちらもご参加下さい。.

タイトル、アブストなどが決まり次第、またお知らせします。

来年は、手のひらサイズシークエンサーが話題になりそうですが、PacBioはまだまだ負けてませんよ!
ランニングコスト、データ量、精度、供給安定性、サイエンスとしてのデータ、いずれも客観的に見てPacBioの方が上回っている、ということをこれからもお示ししていきます!

なーんて、大きなこと言ってますが、アレですね、市場が活性化するのはいいことです。
同じロングリード同士、競いながらもうまく住み分け、するのかな。
これについてはまたの機会にしっかり書きます。
では