Piercing the dark matter: bioinformatics of long-range sequencing and mapping
Sedlazeck et al., (2018)Nature Reviews Genetics.
ロングレンジ技術を使ったゲノム解析に関する、すごくComprehensiveにまとめられた、バイオインフォマティクスのレビューです。
これはほんと超おすすめ。
このレビューはいくつかのパートに分かれてまして、
1.ロングリードテクノロジーのまとめ
ここでいうロングレンジ技術とは、Pacific Biosciences (PacBio)や Oxford Nanopore Technologies (ONT)のように、「本当の」ロングリードと、10X Genoimics のリンクドリード、BioNanoのフィジカルマッピング、Hi-Cのような超ロングレンジメイトぺア、を含みます。
それぞれの技術の特徴(ロングリードのエラー率の高さなど)がまとめられています。
Bamファイルの今のフォーマットが、ロングリードマッピングデータにはもはや向いていない、という点は前から言われていましたね
2.De Novo Assemblyへの挑戦
- ゲノムに存在するリピート配列の存在が、ショートリードでのゲノムアセンブリを難しくしている
- ロングリードが30カバレッジ未満しか無いときは、ショートリードとのハイブリッドを使うべきだろう
- しかしショートリードでのロングリードエラー補正(PBcR, Nanocorr, Spades and MaSuRCA,)は、GCバイアスなどの問題でロングリードを正しくエラー補正できない可能性がある
- ロングリード同士のSelf Correction (HGAP, PBcR, Canu, MARVEL or FALCON)が、もっとも良い
- 倍数性の高いゲノムのアセンブルは今も、難しい (NRGeneという会社は倍数体があっても独自の秘密プログラムで行っているそうですが仕組みは非公開です)
- コンティグを作った後のポリッシングには、QuiverやArrow(PacBio用)、Nonopolish(ONT用)、Pilon(ショートリードをポリッシングに使用)などがある
3.スキャフォルディングとギャップフィリング
- スキャフォルディングには、10XやHi-Cなどが有効
- しかしアセンブルの時点で高精度のコンティグを作ることが何より重要
4.SV解析
- まずはSVの定義をはっきりさせている(挿入とか欠損とか、転移とか)
- SV検出精度はマッピングの精度に依存する(BLASR, BWA-MEM, minimap/minimap2, LASTなどについても言及)
- コスト、倍数体、リファレンス配列の精度、などがSV解析の大きな問題点
そのほか、ここには書ききれないほどのトピックスがたくさんあって、とにかく、一度読んでみてくださいと言うしかない!
バイオインフォマティクスのレビューなので、アセンブルからSVコール、RNAシークエンスまで、巷にあふれるたくさんのツールの解説があります。
もちろんこのレビューは、決してPacBio贔屓ではありません。
ロングリードはPacBioとONTがありますが、むしろ、最長ロングリードはONTに軍配が上がっている。
PacBioは、エラーのランダム性から、コンセンサス配列の精度は最も高いロングリードと言える。
どうやってもロングリードの場合、PacBioもONTもリード長には限界があり、結果、10XとかHi-Cとか、ショートリードによる擬似的な超ロングリードとの組み合わせがアセンブル結果や構造解析、フェージング解析の結果を大きく改善することは間違いない。
今の時代、複数のテクノロジーを、最適なバイオインフォマティクスツールをうまく使いこなして解析することが重要なんだなと、改めて実感するレビュー論文でした。
--------- 5/18(金)は秋葉原へ集合!------------
「PacBio 現場の会 2018」
登録はこちらから
5名の招待演者と
PacBio、Dovetail、その他最新NGS情報を
一度に聞ける年に一度のイベントです!
情報交換会もあります。
参加無料、PacBioに興味のある研究者なら誰でも参加OK!
0 件のコメント:
コメントを投稿