2018年6月15日金曜日

Assembling high-quality human reference genomes for global populations

梅雨ですね。雨の季節。
水不足にならないためにも雨は大事、とわかっているけど、雨の日はテンションが上がらない。
と思っていたら、沖縄で考えが変わりました!
梅雨と言えばシトシト降るイメージだったのですが、沖縄の梅雨はザーザー! 
嵐でした。

さて人種ごとにヒトゲノムを決めるプロジェクトが、世界中で行われているのはご存じかもしれません。
最近だと、スウェーデン人の男女のゲノムが話題になりました。

ヒトゲノムを読むということと、決めるということの間には大きなギャップがあります。
読むのはPacBioをはじめ、ONTやIlluminaショートリード、さらにBioNanoや10X Genomics、Hi-CやChicagoなどたくさんの技術がありますので、お金がある限りランしてヒトゲノムのピースのデータはたくさん得ることができます。

しかしそこからヒトゲノム配列を正しく決める、というのは大変な作業です。
なかなかその「決め方」について、「プロセス」について、の発表を聞く機会は少ないと思いますが、良いウェビナーがありますのでお知らせします。


Assembling high-quality human reference genomes for global populations

1時間ほどの長いウェビナーですが、2人目のスピーカーはスウェーデンゲノムのひとです。以下そのウェビナーからのスクリーンショット。
PacBioとBioNanoのデータをハイブリッドアセンブリしているのがキーです。

3人目のスピーカーは我らがPacBioのPaulさん!
何度も日本に来ている日本食大好きのイタリア系カリフォルニア人です。
彼はPacBio設立時からの早期メンバーの一人で、PacBioシークエンスについては何でも知っています。
実験の話も出てきますのでこれも面白いですよ。



2018年6月8日金曜日

Dovetail Genomicsの最近の論文集

先日Dovetail GenomicsのHi-Cの話をしたので、今日は、論文リストを紹介
投稿中のものも含まれます。色んな生物ゲノムが読まれているんだなあ・・・

Dovetail Genomics Current Publications !!

【Genome Assembly】

Improved Genome Assembly and Annotation for the Rock Pigeon (Columba livia)
Holt C et al. G3 (Bethesda). 2018 May 4;8(5):1391-1398. doi: 10.1534/g3.117.300443.

The sea lamprey germline genome provides insights into programmed genome rearrangement and vertebrate evolution
Smith JJ et al. Nat Genet. 2018 May;50(5):768. doi: 10.1038/s41588-018-0075-2.

A High-Quality Reference Genome for the Invasive Mosquitofish Gambusia affinis Using a Chicago Library
Hoffberg SL et al. G3 (Bethesda). 2018 Apr 27. pii: g3.200101.2018. doi:10.1534/g3.118.200101.

EquCab3, an Updated Reference Genome for the Domestic Horse
Kalbfleisch TS et al. 2018 Apr 25; Pre-print*.

High quality whole genome sequence of an abundant Holarctic odontocete, the harbour porpoise (Phocoena phocoena)
Autenrieth M et al. 2018 Apr 19; Pre-print*.

Hologenomic adaptations underlying the evolution of sanguivory in the common vampire bat
Medoza MLZ et al. Nat Ecol Evol. 2018 Apr;2(4):659-668. doi: 10.1038/s41559-018-0476-8.

Whole-genome assembly of the coral reef Pearlscale Pygmy Angelfish (Centropyge vrolikii)
Fernandez-Silva I et al. Sci Rep. 2018 Jan 24;8(1):1498. doi: 10.1038/s41598-018-19430-x.

Genetic architecture drives seasonal onset of hibernation in the 13-lined ground squirrel
Grabek KR et al. 2017 Dec 2; Pre-print*.

The draft genome of tropical fruit durian (Durio zibethinus)
Teh BT et al. Nat Genet. 2017 Nov;49(11):1633-1641. doi: 10.1038/ng.3972.

Strategies for optimizing BioNano and Dovetail explored through a second reference quality assembly for the legume model, Medicago truncatula
Moll KM et al. BMC Genomics. 2017 Aug 4;18(1):578. doi: 10.1186/s12864-017-3971-4.

Rapid cloning of genes in hexaploid wheat using cultivar-specific long-range chromosome assembly
Thind AK et al. Nat Biotechnol. 2017 Aug;35(8):793-796. doi: 10.1038/nbt.3877.

The house spider genome reveals an ancient whole-genome duplication during arachnid evolution
Schwager EE et al. BMC Biol. 2017 Jul 31;15(1):62. doi: 10.1186/s12915-017-0399-x.

The Molecular Genetic Basis of Herbivory between Butterflies and their Host-Plants
Nallu S et al. 2017 Jun 23; Pre-print*.

Improved genome assembly of American alligator genome reveals conserved architecture of estrogen signaling
Rice ES et al. Genome Res. 2017 May;27(5):686-696. doi: 10.1101/gr.213595.116.

Improving and correcting the contiguity of long-read genome assemblies of three plant species using optical mapping and chromosome conformation capture data
Jiao WB et al. Genome Res. 2017 May;27(5):778-786. doi: 10.1101/gr.213652.116.

The impact of third generation genomic technologies on plant genome assembly
Jaio WB & Scheeberger K. Curr Opin Plant Biol. 2017 Apr;36:64-70. doi:10.1016/j.pbi.2017.02.002.

Genome assembly with in vitro proximity ligation data and whole-genome triplication in lettuce
Reyes-Chin-Wo S et al. Nat Commun. 2017 Apr 12;8:14953. doi: 10.1038/ncomms14953.

The genome of Chenopodium quinoa
Jarvis DE et al. Nature. 2017 Feb 16;542(7641):307-312. doi: 10.1038/nature21370.

De novo hybrid assembly of the rubber tree genome reveals evidence of paleotetraploidy in Hevea species
Pootakham W et al. Sci Rep. 2017 Feb 2;7:41457. doi: 10.1038/srep41457.

Genome evolution in the allotetraploid frog Xenopus laevis
Session AM et al. Nature. 2016 Oct 20;538(7625):336-343. doi: 10.1038/nature19840.

Sequencing wild and cultivated cassava and related species reveals extensive interspecific hybridization and genetic diversity
Bredeson JV et al. Nat Biotechnol. 2016 May;34(5):562-70. doi: 10.1038/nbt.3535.

Chromosome-scale shotgun assembly using an in vitro method for long-range linkage
Putnam N et al. Genome Res. 2016 Mar;26(3):342-50. doi: 10.1101/gr.193474.115.

【FixC & Selva】
Structural variation detection by proximity ligation from FFPE tumor tissue
Troll C et al. 2018 Feb 27; Pre-print*.

*Pre-print articles available on bioRxiv

あと、ついでといっては失礼ですが、来週12日(火)にイルミナ社のウェブセミナーで、理研の工樂さんによるHi-Cのお話があります。
私は立場上、イルミナ社の宣伝したら怒られますが(笑)、これは純粋にゲノムサイエンス&技術の話なので良いかと。
興味のあるかたはどうぞ!

2018年6月7日木曜日

PacBioデータとHi-Cデータがあるなら、これ! Falcon Phase

先日、Hi-Cソフトウェアの話をしましたがその続きを少し。
PacBioのアセンブリとHi-Cスキャフォルディングを組み合わせた、その名も、
Falcon Phase
論文はここから
ソフトウェアはここから
因みにこのソフトはPacBioはサポート外です。バグなどは直接GitHubにお知らせくださいね。
そして、PacBioのSara Kinganが先月、SFAFで発表したスライドがこちら
DiploidのアセンブラーといえばFalconがあります。
Falcon+Unzipの弱点は、Primary Contigの中にも、Haplotype switchという現象が起こりうることです。
一本のPrimary Contigが必ず同じ染色体(ハプロタイプ)由来かというと、実はそうでは無く、十分長いHomozygousの部分がある限り、バブルの部分、Heterozygousの部分をきれいにハプロタイプに分けるのは難しい。
リード長に収まる範囲のSNPがキチンとPhasingできるのとは、少し別次元の話です。
Haplotype switchは、アセンブリした後の数百キロ~数メガ塩基のレベルで起こりうる現象です。
とここまで書いてて、書き言葉では全く伝わらないことに気づいた、、。
Primary Contigは、100%正確なハプロタイプというわけではなく、このようなHaplotype switchが起こる可能性があるので、Pseudo-haplotypeと呼ぶべきでしょう。

Falcon Phaseは、このHaplotype switchをできるだけ無くし、正しいハプロタイプを作るために開発されました。
まず、Unzipの結果からスタートします。
Priamry Contigのどこの部分がハプロタイプなのか(Associate Contigがある場所)を決めて、Primary Contigの中のフェージングしていた場所を分けます(Phase Block)。
その後、Hi-Cデータを加えて、Phase Blockが本当はどちらの染色体由来だったのか、をHi-Cのマッピング情報から推測するわけです。

なるほど、良く考えたな。

もちろん、Dovetail GenomicsのHi-Cデータもそのまま使えますので、ヘテロ性の高い、F1ハイブリッドをシークエンスした方は試してみたらいかがでしょうか?
1Gbゲノムサイズあたり、1億リードぺアのHi-Cデータが必要らしいです。



2018年5月29日火曜日

ヒト構造解析とFix-C

前回Hi-Cについて少し触れたので、もうちょっと。
Hi-Cと言えばこれらの論文が有名です。


結構前からあるテクノロジーなんですね。
元々は染色体の構造、3次元での構造を解析する技術です。

それをゲノムアセンブリに応用したのが、Chicagoであり、Dovetail Hi-Cであったわけですが、もともとの構造解析という使い方を応用して、「ヒトゲノム構造解析」というのも可能なわけです。

Dovetailのヒトゲノム構造解析サービスは、アメリカではすでに行われています。

この資料はここからダウンロードできます。

実験の原理は、ゲノムアセンブリに使うHi-Cと同じです。
最初のサンプルが血液、細胞、またはFFPEサンプルになります。

ちなみに血液なら2mL 、細胞の場合10の7乗個程度、FFPEは厚さ10μmのスライス、組織の場合は1平方㎝ x 20μmが必要量らしいです。
そこからHi-Cライブラリを作製し、HiSeqを使って2x150PEで150M本読む。

そしてヒトゲノム参照配列にマッピングし、距離の分布図を作る。
染色体レベルの転座や大きな欠損変異などを検出する。
→解析のソフトウェアは、Selvaというものを用いる。

検出できる変異の大きさは、50kb以上です。それ以下だと感度が下がるそうです。
つまり、PacBioとは競合しない!!
PacBioは50bp~50kbくらいまでのInDel検出が得意だけれども、50kb以上の巨大な変異はリードが届かないので検出できない。
Hi-Cは連続配列では無くリードペアで変異を検出するので、あまり小さい変異検出だとノイズと差がはっきりしない。そのかわり、染色体レベルの構造変異検出には強い!

論文もbioRxivですが投稿されていますので、アルゴリズムに興味のあるひとはどうぞ。
検出感度でいうと、FISHと比べてもひけをとらず、例えば12個のがんのFFPEサンプル(20~90%の割合)をHi-C+Selvaで解析し、FISHで検出できた変異とどれくらい合っていたか、を比較したデータがあります。
Dovetailヒト構造解析のProduct Highlightから
ダウンロードできる資料です
ほとんどはFISHの結果と正しく、またサンプル#1や#6は、FISHの方が間違っていたそうです。がん細胞の割合が20%のとき、50kb以上の大きさの構造変異の検出感度は67%です。100%がん細胞のときは検出感度90%だそうです。

そしてこのFFPEからのHi-C、というサービスを行っている会社はほかに無いらしく、Fix-Cという商標をつけています。
FFPEはもともとDNAがフラグメント化しているから、ロングリードには向かないんですよね。

最後に、これは「まだ」受託サービスのみ、の商品なんです。
つまりサンプルをアメリカに送らなければいけない。
アメリカ国内のサンプルなら国内移動で問題無いので結構売れているらしいです

キットやソフトウェアの配布は、今のところ、予定はありません。
そういうニーズが世界的に増えて、キット&ソフトウェアの配布が可能になればもっと世界に広がる技術だと思うのですが。
とりあえず、海外へ送ってもいいサンプルで、この変異解析に興味がある方は連絡ください。
1サンプル、凄く高めに見積もっても50万円くらいです。
実際は都度見積もりですけれど。

2018年5月27日日曜日

PacBio 解析ウェブセミナーと、Hi-C解析のソフト

先日は秋葉原にて、第4回目となる「PacBio現場の会」を行いました。
事前登録88名、プラス演者の先生方、協賛企業の方々、我々。
部屋のキャパの都合で88名で打ち切ったのですが、もっと大きな部屋を用意すれば良かったかなあ。
情報交換会やその後の有志二次会も楽しかった。

個人的な意見ですが、NGS現場の会の大会が無くなって、NGS関連の情報を総合的に、学術的な枠を超えて、得る場がほぼ無くなったと思います。
植物の研究者、魚類の研究者、微生物の研究者、がんの研究者、遺伝病の研究者、、、。
こういう方々が一同に会す場はなかなか無いですよね。
共通点はゲノム、ということでシークエンサー関連の企業のセミナーが集まりやすいのでしょうね。たいてい無料ですし。

余談ですが、大きな国際学会、例えばアメリカ人類遺伝学会とかでは、企業はブースやセミナーの他に、レストランを貸し切って招待制のディナーや、パーティー(Customer Appreciation Event )をするんです。
お客さんとのネットワーキングが主目的で、あとは主催企業のプレゼンなどがあります。
こういうの、日本でもできないかなあ。

さてさて、PacBioデータ解析のウェブセミナーが日本にやさしい時間帯で行われます!
深夜じゃないよ!

第一回: 6/7 1PM~ デノボアセンブリ解析のウェブセミナーです
 A Sketch of Assembly Recipes for PacBio Data

第二回: 6/14 1PM~ トランスクリプトーム解析のウェブセミナーです

初心者にもわかりやすい内容、と聞いていますので、これから始めるひとにも良いかと思います。

さてさて、今日お知らせしたいのはもうひとつ。
PacBioのデータのアセンブリと言えばFalcon+Unzipですよねー?
Hi-Cデータというのは、Dovetail Genomicsでも行っているあの、染色体レベルでスキャフォルディングをするデータです。
最近ではここのPAG報告で紹介しました。
Hi-Cについては遺伝研の東先生のこのスライドがとても良くまとまっていると思います。

このHi-Cデータを使ってPacBioのアセンブリ結果からスキャフォルディングするアルゴリズムの論文が出ました!

FALCON-Phase: Integrating PacBio and Hi-C data for phased diploid genomes

PacBioデータとHi-Cデータが手元にあって、アセンブリに興味のあるひとは使ってみたらいかがでしょうか?

2018年5月4日金曜日

Sequel を爆買いする中国の勢いが止まらない(ジョークです)

注:ジョークです エイプリルフールネタにしようと思っていた
------------------------------------------------------------------------

中国では、Novogene社やAnnoroad社がSequelを10台単位で購入しているそうで、その爆買いぶりに開いた口が塞がらない。
そんな中、PacBio本社では、これからさらに来るであろう注文を見越して生産態勢を一層強化したそうです。
それがこの写真!
生産が完了したSequelたち
日本含むアジアに向けてまもなく出荷予定のSequelたち
積み出しを待つSequelたち
こちらは欧米向け出荷予定のSequelたち
これちょっと並び方がおかしい? それは真上から撮影したらわかります。

すみません、全体を写すとこうなります
遊び心がありますねー。
NGSの装置で会社のロゴを作ってしまうとは!!



ゴールデンウィーク中日ですからこういう軽いネタで許してください
はい、もちろんこれは本物の装置ではありません。USBです。
欲しいかたは↓こちらの会に参加してGET! 数に限りがあるので早いもの勝ち

5月18日「PacBio現場の会 2018」
まだ若干席がありますよ!

2018年4月29日日曜日

Genetics and Genomicsっていう夜中のバーチャルイベント

ゴールデンウイークですが、皆さんはいかがお過ごしでしょうか。
帰省? 旅行? それとも仕事?
私は家でのんびり、というわけにもいかず、初日は人間ドックでした。
直ぐわかる範囲では検査結果に異常は無く、若干白血球が低め、みたいなことを言われましたが気にするほどでは無いとのこと。
そんなわけでこんな時間(夜中)ですがパソコンに向かっています。 

LabRoots.comが提供するバーチャルイベント、Genetics and Genomicsが再来週の5月9と10日にあるそうです。
PacBioを使ったメタゲノムの話が2つあるみたいなので、紹介しますね。

先ずは我らがCSOの話。ショットガンメタゲノムのお話も出てくるそうです。

こちらはrRNAのPCRアンプリコンで株レベルまでの微生物プロファイルをした話。
と、以上の2つがPacBio社からお知らせメールで回って来たのですが、いかんせん、時差がキツイ!
向こうの朝9時って日本の翌深夜1時なんですよねー。
1時に難しい話を英語でされて、寝落ちしない自信が無い・・・

私的には、以下の構造解析、NGMLRとSniffle の開発者の話も聞きたいけれどこれも深夜1時、ガクっ。
でもPacBioやNanoporeのデータを使って、さらに10Xのリンクドリードも使って、染色体構造解析をするあたり、やっぱり1時過ぎまで起きて聞きたいなあ。と思ってみたり。

リンク先はこちらです
興味のあるかたは、頑張って起きてみてください
夜中のイベント、っていうと楽しく聞こえるけど、ね。



--------- 5/18(金)は秋葉原へ集合!------------
「PacBio 現場の会 2018」
登録はこちらから
5名の招待演者と
PacBio、Dovetail、その他最新NGS情報を
一度に聞ける年に一度のイベントです!
情報交換会もあります。
参加無料 空席あと少し、急げ‼