パックマンの挑戦　－　PacBioシークエンサー: PacBioデータとHi-Cデータがあるなら、これ！　Falcon Phase

2018年6月7日木曜日

PacBioデータとHi-Cデータがあるなら、これ！　Falcon Phase

先日、Hi-Cソフトウェアの話をしましたがその続きを少し。
PacBioのアセンブリとHi-Cスキャフォルディングを組み合わせた、その名も、
Falcon Phase
論文はここから
ソフトウェアはここから
因みにこのソフトはPacBioはサポート外です。バグなどは直接GitHubにお知らせくださいね。
そして、PacBioのSara Kinganが先月、SFAFで発表したスライドがこちら

DiploidのアセンブラーといえばFalconがあります。
Falcon＋Unzipの弱点は、Primary Contigの中にも、Haplotype switchという現象が起こりうることです。
一本のPrimary Contigが必ず同じ染色体（ハプロタイプ）由来かというと、実はそうでは無く、十分長いHomozygousの部分がある限り、バブルの部分、Heterozygousの部分をきれいにハプロタイプに分けるのは難しい。
リード長に収まる範囲のSNPがキチンとPhasingできるのとは、少し別次元の話です。
Haplotype switchは、アセンブリした後の数百キロ～数メガ塩基のレベルで起こりうる現象です。
とここまで書いてて、書き言葉では全く伝わらないことに気づいた、、。

Primary Contigは、100%正確なハプロタイプというわけではなく、このようなHaplotype switchが起こる可能性があるので、Pseudo-haplotypeと呼ぶべきでしょう。

Falcon Phaseは、このHaplotype switchをできるだけ無くし、正しいハプロタイプを作るために開発されました。
まず、Unzipの結果からスタートします。
Priamry Contigのどこの部分がハプロタイプなのか（Associate Contigがある場所）を決めて、Primary Contigの中のフェージングしていた場所を分けます（Phase Block）。
その後、Hi-Cデータを加えて、Phase Blockが本当はどちらの染色体由来だったのか、をHi-Cのマッピング情報から推測するわけです。

なるほど、良く考えたな。

もちろん、Dovetail GenomicsのHi-Cデータもそのまま使えますので、ヘテロ性の高い、F1ハイブリッドをシークエンスした方は試してみたらいかがでしょうか？
1Gbゲノムサイズあたり、1億リードぺアのHi-Cデータが必要らしいです。

パックマンの挑戦　－　PacBioシークエンサー

2018年6月7日木曜日

PacBioデータとHi-Cデータがあるなら、これ！　Falcon Phase

0 件のコメント:

コメントを投稿

2018年6月7日木曜日

PacBioデータとHi-Cデータがあるなら、これ！ Falcon Phase

0 件のコメント:

コメントを投稿

PacBioデータとHi-Cデータがあるなら、これ！　Falcon Phase