パックマンの挑戦　－　PacBioシークエンサー: 8月 2015

2015年8月17日月曜日

ところで最近cDNAシークエンスはどうなった

アイソフォームシークエンス、通称　Iso-Seq
これは以前もこのブログで紹介しました
ところで、良くある質問が、どれくらい読んだら十分か、というもの。
転写量が低いアイソフォームも高いものも、まんべんなく検出するには、何セル読んだら良いのか？

簡単なようで難しい問題です。

これは逆に出力から考えた方が良さそうです。

1つのSMRT Cellから出力されるリード数は、およそ6万本。
1本1本が独立のアイソフォーム配列由来です。
ReadsOf Insert、別名CCSですが、これがちゃんと全長cDNAをカバーしているかどうかが大事です。
ここで全長というのは、逆転写酵素で転写産物を復元した後、PCR増幅するときのPCRプライマー配列が、シークエンスされた後のReadsOf Insertで、5’側と3’側にちゃんとあることを言います。

つまり、長いアイソフォームほど、全長読まれる確率は低くなる
設定するReads Of Insetのパス数は、アイソフォーム配列の精度に影響する
では、出力されるReadsOfInsertのうち、どれくらいが全長読まれたものなのか？

先月のユーザーミーティングでは、いつくかIso-Seqの発表もありました。
その中のひとつでは、3パターンでサイズセレクションをしていて、そのうち完全長cDNAだった割合は、

1-2kb：50%（1セル6万本出力と仮定すると、3万本）
2-3kb：30%（同18,000本）
3kb-：20%（同12,000本）

というふうに、転写産物の長さが長くなるほど、完全長アイソフォームの数は少なくなりました。
当然といえば当然。

他の発表でも、サイズセレクションのデータは無いけれど、8セル使ったIso-Seqの実験で完全長は21万本。
64セル読んだときは完全長cDNAは100万本（全体のリード数は470万本）だったそうです。

このような数字が、自分の目的に合うかどうか？
で、計算してはいかがでしょうか。

しかし、完全長cDNAといっても、もしかすると5’側の配列が欠けていることがあるかもしれません。
これは逆転写酵素Takara-Clontech SMARTerが、最初に転写産物の5’キャッピングをしないことが原因です。
5’側まで行かなくてもcDNAが完成してしまうため、ある程度、完全長では無いcDNAができてしまいます。
その後PCR増幅するときに使う5’と3’のプライマー配列が、シークエンスで読めていれば、Iso-Seqでは完全長cDNAと言います。
ここ、気をつけて下さい。

もうひとつ、その昔、Iso-Seqが開発途中だった3年前の話です。
転写ノーマライゼーションというものがありました。
これは、転写量が高いアイソフォームばかり読めてしまって、転写が低い産物がなかなか読めないことを防ぐために考えられたプロトコルです。

カムチャッカカニから抽出したDuplex-specific nuclease（DSN）を使用した方法で、原理としては以下のようなもの。

一度cDNAをDenatureしたあと、Renatureする→　Abundantな転写産物ほど二本鎖に戻りやすいはず
二本鎖DNAを特異的にHydrolyzeする酵素（DSN）で処理する→　Abundantな転写産物ほど優先的に分解される
転写レベルが低かったcDNAが分解されずに残る
→　これでライブラリを作ることで、レアなcDNAも少ないセル数でシークエンスすることができるし、高発現だったcDNAは、2のところで分解されてライブラリにならないはず

しかーし、結局公式プロトコールにはならなかった。理由は以下の通り

cDNAを一旦Denatureした後、二本鎖にする段階で、長いcDNAほど、同じ配列(ドメイン配列など)を有する他のアイソフォームと非特異的に二本鎖を形成する確率が高くなる
長いcDNAは、それが例えレアな転写産物であっても、非特異的Renatureを作りやすいことで、結果DSN分解（hydrolysis）されてしまう
ノーマライゼーションステップには、追加でPCR増幅が必要なため、さらに増幅バイアスが生じる（Iso-Seqは2回、PCR増幅しますので、ノーマライズするときは合計3回のPCRが必要になる）

これらを考えて、海外のあるユーザは、2kb未満の比較的短いcDNAに対してのみ、ノーマライズ処理をしているそうです。

短ければ非特異的Renatureはある程度防げるだろう、という考えです（増幅バイアスはかかりますが）。

とは言うものの、PacBioとして公式に勧めているプロトコルではありません。自己責任です。

酵素自体はEvrogen社で販売されているようですね。

Trimmer-2 cDNA Normalization kit

じゃあ今はどうなんだ？　と聞かれそうですが、今もノーマライゼーションは公式プロトコルにはありません。

転写産物の高いものだけを、読む前に減らす方法は難しいのかな。

2015年8月8日土曜日

DNANexus

「猛暑日」

日中の最高気温が35度を超えるとこう呼ばれますが、東京は今日8月7日で、1週間連続の猛暑日だそうです。

5年後の東京オリンピックは8月6日から。こんな暑い中、屋外競技は厳しいだろうなあ。

何かと話題の新国立競技場も、東京ドームみたいに、完全エアコン&屋根付きにすれば良いけど。
そうなったら建設費はいくらになるのかな？
ちなみに東京ドームができたのは1988年。バブルの真っ只中、建設費は350億円だったそうな（ここにまとめあり）

さて、私がいまバイオインフォ関連で気になっているのは、前回も紹介したDNANexusという会社。

ここはGoogle Ventureも出資しているアメリカの会社で、クラウドでの解析パイプラインがメインです。

ベンター氏のゲノムアセンブリでも使われていましたね。

この会社は、FalconによるPacBioデータのアセンブリパイプラインを提供しています。
先月のPacBioユーザーグループミーティングでも発表していました。
Falcon、ってインストールがとても複雑なんです。
環境依存が多くて、なかなか素人には手が出ない。
そもそもヒトゲノムレベルのゲノムサイズをFalconアセンブリするには、それなりのクラスターサーバーが必要。
でもDNANexusは、アマゾンクラウドを使っているので、理論的には世界最大級のスパコンを使うことができる、というわけ。

Falconアセンブリは、HGAPのようにエラー補正ステップが最初にあります。
このステップが一番計算量を消費する。

DNANexus社のスライドより

上記には、HGAPの最後のステップであるQuiverは含まれていません。
Quiverもそこそこ時間がかかります。

ユーザは、アセンブルに必要なPacBioの生データ（bax.h5とmetadata.xml）を、DNANexus社のツールでアップロードします。
あとは、こんなパイプラインをポチっと。

出力データは

エラー補正後の生リード（Pre-Assemblyリード）
Primary AssemblyのFASTAファイル
Alternative Contig（バブル）
各ステージでの中間ファイル

結果がまずければ、例えばステージ2から再開できるように、中間ファイルを保存しているそうです。

その後、Quiverをかける。
Quiverというのは、HGAPでも使っていますが、エラー補正をする前の生サブリードを、アセンブリ後のContig配列にマップして、生サブリードの持っているクオリティデータを使いながら、Contig配列を補正していくプログラムです。

さて、ここまではアセンブリの話。
もちろん、構造変異解析のパイプラインもあります。

皆さん、Parliamentというのをご存知でしょうか？

Parliamentとは、構造変異解析のツールで、BreakdancerやPBHoneyなどに広く使われているそうです。

Illuminaデータ、PacBioデータ、Irys、Nexteraなど様々なデータに対応します。
例えばイルミナデータとPacBioデータがある場合、数ある変異検出ツール（DellyやCNVator）で変異があっただろうとされる場所をまとめて、そこのみをローカルアセンブリして構造変異の場所を出力する。
「数ある変異検出ツール」というのを、DNANexus解析パイプラインでは、Parliamentひとつでまとめてしまって、簡潔なものにしています。

DNANexusのスライドより

今のところ、イルミナ用の構造検出ツールは数が多く、PacBio用にはPBHoneyのみしか無い。
なので、Parliamentを最大限生かすには、イルミナデータがあったほうが良いとのことです。
しかし今後は、PacBio用の構造変異検出ツールも増えてくるだろうから、期待したいですね。

---------------------ここまではDNANexusの話------------------------

さて、せっかく構造変異の話をしたので、ついでに宣伝です。

前にもお知らせしましたが、SNVとかIndelとかを見つけた後に、それがどのくらい意味があるものなのか、を調べるのは大変だけれども重要なこと。
データベースに照らし合わせてフィルタリングするのが普通でしょうが、このIngenuity Variant Analysisが追加で持っているデータベースはちょっと違う。
何百人ものPhDホルダーが、10年以上かけて文献から抽出した、パスウェイ・ネットワーク情報です。
これ自体でも価値のあるデータベースでしょうね。

このIngenuity Variant Analysisは、「変異情報から病態・疾患情報や機能・パスウェイとの関連性について、【短時間で、簡単に、信頼性の高い解析結果】を出力するツールです。

キャンペーンお申込みwebページはこちら

Ingenuity Variant Analysisについて詳しくはこちら

応募してみたいが、できるかどうかわからない方、IVAの概要説明をご希望の方は、下記までお問い合わせください！

トミーデジタルバイオロジー（株）

info_ap（AT）digital-biology.co.jp　　（AT）の部分を@にして下さいね。