2018年6月15日金曜日

Assembling high-quality human reference genomes for global populations

梅雨ですね。雨の季節。
水不足にならないためにも雨は大事、とわかっているけど、雨の日はテンションが上がらない。
と思っていたら、沖縄で考えが変わりました!
梅雨と言えばシトシト降るイメージだったのですが、沖縄の梅雨はザーザー! 
嵐でした。

さて人種ごとにヒトゲノムを決めるプロジェクトが、世界中で行われているのはご存じかもしれません。
最近だと、スウェーデン人の男女のゲノムが話題になりました。

ヒトゲノムを読むということと、決めるということの間には大きなギャップがあります。
読むのはPacBioをはじめ、ONTやIlluminaショートリード、さらにBioNanoや10X Genomics、Hi-CやChicagoなどたくさんの技術がありますので、お金がある限りランしてヒトゲノムのピースのデータはたくさん得ることができます。

しかしそこからヒトゲノム配列を正しく決める、というのは大変な作業です。
なかなかその「決め方」について、「プロセス」について、の発表を聞く機会は少ないと思いますが、良いウェビナーがありますのでお知らせします。


Assembling high-quality human reference genomes for global populations

1時間ほどの長いウェビナーですが、2人目のスピーカーはスウェーデンゲノムのひとです。以下そのウェビナーからのスクリーンショット。
PacBioとBioNanoのデータをハイブリッドアセンブリしているのがキーです。

3人目のスピーカーは我らがPacBioのPaulさん!
何度も日本に来ている日本食大好きのイタリア系カリフォルニア人です。
彼はPacBio設立時からの早期メンバーの一人で、PacBioシークエンスについては何でも知っています。
実験の話も出てきますのでこれも面白いですよ。



2018年6月8日金曜日

Dovetail Genomicsの最近の論文集

先日Dovetail GenomicsのHi-Cの話をしたので、今日は、論文リストを紹介
投稿中のものも含まれます。色んな生物ゲノムが読まれているんだなあ・・・

Dovetail Genomics Current Publications !!

【Genome Assembly】

Improved Genome Assembly and Annotation for the Rock Pigeon (Columba livia)
Holt C et al. G3 (Bethesda). 2018 May 4;8(5):1391-1398. doi: 10.1534/g3.117.300443.

The sea lamprey germline genome provides insights into programmed genome rearrangement and vertebrate evolution
Smith JJ et al. Nat Genet. 2018 May;50(5):768. doi: 10.1038/s41588-018-0075-2.

A High-Quality Reference Genome for the Invasive Mosquitofish Gambusia affinis Using a Chicago Library
Hoffberg SL et al. G3 (Bethesda). 2018 Apr 27. pii: g3.200101.2018. doi:10.1534/g3.118.200101.

EquCab3, an Updated Reference Genome for the Domestic Horse
Kalbfleisch TS et al. 2018 Apr 25; Pre-print*.

High quality whole genome sequence of an abundant Holarctic odontocete, the harbour porpoise (Phocoena phocoena)
Autenrieth M et al. 2018 Apr 19; Pre-print*.

Hologenomic adaptations underlying the evolution of sanguivory in the common vampire bat
Medoza MLZ et al. Nat Ecol Evol. 2018 Apr;2(4):659-668. doi: 10.1038/s41559-018-0476-8.

Whole-genome assembly of the coral reef Pearlscale Pygmy Angelfish (Centropyge vrolikii)
Fernandez-Silva I et al. Sci Rep. 2018 Jan 24;8(1):1498. doi: 10.1038/s41598-018-19430-x.

Genetic architecture drives seasonal onset of hibernation in the 13-lined ground squirrel
Grabek KR et al. 2017 Dec 2; Pre-print*.

The draft genome of tropical fruit durian (Durio zibethinus)
Teh BT et al. Nat Genet. 2017 Nov;49(11):1633-1641. doi: 10.1038/ng.3972.

Strategies for optimizing BioNano and Dovetail explored through a second reference quality assembly for the legume model, Medicago truncatula
Moll KM et al. BMC Genomics. 2017 Aug 4;18(1):578. doi: 10.1186/s12864-017-3971-4.

Rapid cloning of genes in hexaploid wheat using cultivar-specific long-range chromosome assembly
Thind AK et al. Nat Biotechnol. 2017 Aug;35(8):793-796. doi: 10.1038/nbt.3877.

The house spider genome reveals an ancient whole-genome duplication during arachnid evolution
Schwager EE et al. BMC Biol. 2017 Jul 31;15(1):62. doi: 10.1186/s12915-017-0399-x.

The Molecular Genetic Basis of Herbivory between Butterflies and their Host-Plants
Nallu S et al. 2017 Jun 23; Pre-print*.

Improved genome assembly of American alligator genome reveals conserved architecture of estrogen signaling
Rice ES et al. Genome Res. 2017 May;27(5):686-696. doi: 10.1101/gr.213595.116.

Improving and correcting the contiguity of long-read genome assemblies of three plant species using optical mapping and chromosome conformation capture data
Jiao WB et al. Genome Res. 2017 May;27(5):778-786. doi: 10.1101/gr.213652.116.

The impact of third generation genomic technologies on plant genome assembly
Jaio WB & Scheeberger K. Curr Opin Plant Biol. 2017 Apr;36:64-70. doi:10.1016/j.pbi.2017.02.002.

Genome assembly with in vitro proximity ligation data and whole-genome triplication in lettuce
Reyes-Chin-Wo S et al. Nat Commun. 2017 Apr 12;8:14953. doi: 10.1038/ncomms14953.

The genome of Chenopodium quinoa
Jarvis DE et al. Nature. 2017 Feb 16;542(7641):307-312. doi: 10.1038/nature21370.

De novo hybrid assembly of the rubber tree genome reveals evidence of paleotetraploidy in Hevea species
Pootakham W et al. Sci Rep. 2017 Feb 2;7:41457. doi: 10.1038/srep41457.

Genome evolution in the allotetraploid frog Xenopus laevis
Session AM et al. Nature. 2016 Oct 20;538(7625):336-343. doi: 10.1038/nature19840.

Sequencing wild and cultivated cassava and related species reveals extensive interspecific hybridization and genetic diversity
Bredeson JV et al. Nat Biotechnol. 2016 May;34(5):562-70. doi: 10.1038/nbt.3535.

Chromosome-scale shotgun assembly using an in vitro method for long-range linkage
Putnam N et al. Genome Res. 2016 Mar;26(3):342-50. doi: 10.1101/gr.193474.115.

【FixC & Selva】
Structural variation detection by proximity ligation from FFPE tumor tissue
Troll C et al. 2018 Feb 27; Pre-print*.

*Pre-print articles available on bioRxiv

あと、ついでといっては失礼ですが、来週12日(火)にイルミナ社のウェブセミナーで、理研の工樂さんによるHi-Cのお話があります。
私は立場上、イルミナ社の宣伝したら怒られますが(笑)、これは純粋にゲノムサイエンス&技術の話なので良いかと。
興味のあるかたはどうぞ!

2018年6月7日木曜日

PacBioデータとHi-Cデータがあるなら、これ! Falcon Phase

先日、Hi-Cソフトウェアの話をしましたがその続きを少し。
PacBioのアセンブリとHi-Cスキャフォルディングを組み合わせた、その名も、
Falcon Phase
論文はここから
ソフトウェアはここから
因みにこのソフトはPacBioはサポート外です。バグなどは直接GitHubにお知らせくださいね。
そして、PacBioのSara Kinganが先月、SFAFで発表したスライドがこちら
DiploidのアセンブラーといえばFalconがあります。
Falcon+Unzipの弱点は、Primary Contigの中にも、Haplotype switchという現象が起こりうることです。
一本のPrimary Contigが必ず同じ染色体(ハプロタイプ)由来かというと、実はそうでは無く、十分長いHomozygousの部分がある限り、バブルの部分、Heterozygousの部分をきれいにハプロタイプに分けるのは難しい。
リード長に収まる範囲のSNPがキチンとPhasingできるのとは、少し別次元の話です。
Haplotype switchは、アセンブリした後の数百キロ~数メガ塩基のレベルで起こりうる現象です。
とここまで書いてて、書き言葉では全く伝わらないことに気づいた、、。
Primary Contigは、100%正確なハプロタイプというわけではなく、このようなHaplotype switchが起こる可能性があるので、Pseudo-haplotypeと呼ぶべきでしょう。

Falcon Phaseは、このHaplotype switchをできるだけ無くし、正しいハプロタイプを作るために開発されました。
まず、Unzipの結果からスタートします。
Priamry Contigのどこの部分がハプロタイプなのか(Associate Contigがある場所)を決めて、Primary Contigの中のフェージングしていた場所を分けます(Phase Block)。
その後、Hi-Cデータを加えて、Phase Blockが本当はどちらの染色体由来だったのか、をHi-Cのマッピング情報から推測するわけです。

なるほど、良く考えたな。

もちろん、Dovetail GenomicsのHi-Cデータもそのまま使えますので、ヘテロ性の高い、F1ハイブリッドをシークエンスした方は試してみたらいかがでしょうか?
1Gbゲノムサイズあたり、1億リードぺアのHi-Cデータが必要らしいです。