2018年4月17日火曜日

ハイブリッド でIso-Seqしたい方はこの論文を!

Iso-Seqは皆さんご存じですね。
PacBioのロングリードで完全長cDNAを一気に読んで、スプライシングバリアントを含めたRNAの構造解析をする方法です。

ショートリードでデノボで転写産物をシークエンス&アセンブリする方法には、Trinityという有名なものがあります。
しかしリピート配列があると正確に転写産物を再現できない、K-merサイズによってはアセンブリが不正確になる、など、ショートリードだけの完全長cDNAシークエンスには限界がありました。

IDP-denovo
そんな中、ショートリードでデノボアセンブリしたアイソフォームコンティグに、ロングリード配列をマッピングさせて、アイソフォーム全体の姿を再現するIDP-denovoというツールが出ました。

この論文はあくまでも、ショートリードがメインで、これを補佐する役割としてPacBioのロングリードが登場します。
正直、私はPacBio一本でやった方が良い気がしたのですが、、、。
だって最初のショートリードのアセンブルで、既に、読める配列がイルミナ技術に依存しているでしょう?
それからPacBioで一分子配列を付け足して補正、ってどれだけ精度が上がるのか疑問。

多分、コストが問題だったのでしょう。
でも今はSequel使えばコスト的にもだいぶ割安感があると思うんですけどね。



さてさて、ここからはIso-Seqの話です。
SMRT Link(PacBio解析ソフトウェア)バージョン5.1には、Iso-SeqとIso-Seq2が搭載されています。
へぇ、Iso-Seq2とは?

その前にIso-Seq解析のおさらいです。
実験のプロトコルはこちらからダウンロードできる。簡単に言うと、

  1. サンプルの中で発現しているmRNAの、完全長cDNAを作る
  2. 完全長cDNAをPCRで十分量増やす
  3. SMRT Bellライブラリを作る(SequelではIso-Seqのサイズ分割は基本行わない。長い転写産物に注目したい場合は4kbを境に分割しても良い)
  4. Sequelで読む→ データが出てくる


ここから先は、SMRT Link 5.1で解析すると仮定しますね。
Iso-Seq解析は最初にCCSを作ります。

5'プライマー、インサート配列、ポリA配列、3'プライマーを持つ場合、完全長cDNAとみなされます。完全長=Full Length(FL)と不完全長=Non-FLのリードに分ける。
このステップがClassify

次のステップがClustering
アイソフォームレベルのクラスタリングを行うにはFLのCCSだけが使われる。
このクラスタリングステップがとても時間がかかり、今まで問題になっていた。
Iso-Seq1では配列の長さが同じくらいのものをまとめ、クラスタリングを行っている。
Iso-Seq2では塩基配列のパターンから同じようなものをまとめ、クラスタリングを行っている。
2の方が1より2倍ほど計算速度が速いとのこと。
さて、クラスタリングしてアイソフォーム配列が出来たら、これにFLとNon-FLのサブリードをアラインし、ArrowまたはQuiverで配列精度を高める。
いずれにしても、転写産物を網羅的に見る場合は、Iso-Seq2の方が良い。
一方、ターゲットIso-Seqの場合は、どのアイソフォームも同じような配列パターンを持つので、サイズによってクラスタリングする普通のIso-Seqの方が良い。

最後に、リファレンスがある場合はGMAPでゲノム配列にマップして、Alternative Splicingを見る。ここはヒトとかマウスとかのモデル生物で行われる。
アイソフォームを見つけたらその精査が必要だ。
SQANTIというツールは見つけたアイソフォーム配列を、機能ごとにアノテーション付けてくれる。
FSM = full splice match   (perfect match w/ known isoform)
ISM = incomplete splice match  (partial match)
NIC = novel in catalog  (novel isoform with known junctions)
NNC = novel not in catalog  (novel isoform with new junctions)
というように。
論文にもなっているのでこちらもどうぞ

そのほかにもありますが今日のところはこれにて


518日(金)は秋葉原にて「PacBio現場の会 2018
登録はこちらから

0 件のコメント:

コメントを投稿