2018年7月30日月曜日

10X Genomics Loveのブログ開始(ちょっと更新)

PacBioのブログの姉妹版、名前「くろみうんの冒険」に変えました (8/7)を始めました。
ゲノムとシングルセル解析のグローバルリーダー、10X Genomics をもっともっと知ってもらうために、頑張って続けていこうと思います。

名前の由来、くろみうん、というのはですね、10xの装置Chromiumをカッコ良く発音するとそう聞こえるからですよ!
でもまだ検索に引っかからない。

みなさんどうぞ宜しくお願いしまっす!


2018年7月8日日曜日

「第三世代シーケンサー」とは PacBio のことさー


産経ニュースにPacBioを使ったアセンブリのニュースが載った件

以前、アホロートル(40代以上のひとにはウーパールーパーという名前の方がなじみが深い?)のゲノムがPacBioシークエンサーで解読された、ということをこのブログでも書きました。
それが産経ニュースで紹介されていた、、、って、今更?
俺が書いたの1月だよ、まったく。
いや、これ速報性は求められていないから、って言われたりして。

PacBioのことは名前は伏せて、「第三世代シーケンサー」と書かれています。
まあ、我々は一発でわかりますよね?
「ポータブルシーケンサー」とは書かれていないから、あっちじゃない、ともわかります。


さて、


趣味で始めたこのPacBioブログ:パックマンの挑戦 ですが、6年半で252本の記事を書いてきました。よう続いたなあー
仕事じゃないですからね。完全に自由にやってますので。
途中でやめても良かったんですが、なんかライフワークの一部になってしまって。

そんな「パックマンの挑戦」ですが、今回の記事が最後になります。


誤解の無いように申し上げると、PacBioはまだまだこれからもロングリードシークエンスのグローバルスタンダードとして、発展していきます!
ただ、私がPacBioにたずさわるのが、これで最後という意味です。

今まで楽しみに読んでくれた皆さま、ありがとうございました!

また来月、新しいタイトルのブログが始まりますので、そっちもよろしくお願いします!

2018年7月7日土曜日

コアラゲノム解読!

私が思う、子供の頃から好きなお菓子ベストスリーといえば、
きのこの山、たけのこの里、そしてコアラのマーチです。
共通点は、チョコレート、甘過ぎない、だいたいどこでも売ってるということ。

コアラのマーチのオリジナル(チョコ)に描かれているコアラはおんぶしていますが、実物のコアラはそんなにおんぶしてますかね? 
抱っこの方が多くないかな。カンガルーと同じ有袋類ですし(あまり関係なさそうだけどイメージとして有袋類は抱っこのほうが楽そう)。

そんなコアラのゲノムがPacBioのロングリードで解読されたそうです!!

京都大学のプレスリリース

コアラはユーカリの葉しか食べません。でもユーカリには毒があるから、ほとんどの哺乳類はユーカリの葉は食べられない。
ってことはコアラは食べ物をほぼ独占できるということ!
じゃあなぜコアラはユーカリの毒を解毒できるのか?

Johnson et al., (2018) Adaptation and conservation insights from the koala genome. Nature Genetics

論文では、ゲノムシークエンスはPacBioがメインで使用され、BioNanoでスキャフォルディング、Illuminaで配列エラー補正、しています。

先ずはコアラゲノム(約3.4Gb)の、57カバレッジ分のPacBioデータでFalconアセンブリ。
N50がなんと11.6Mb!
結構行きましたなあ。これはすごい。
Johnson et al., Nat Gen. 2018
たった57カバレッジのデータでN50が11Mb超えなんて、あまり聞いたことがありません。
アセンブリしたゲノムの47%がリピート配列らしいです。
またBUSCO解析の結果、4104個の哺乳類代表遺伝子の95.1%をカバーしていたらしい。

PacBioロングリードの素晴らしさは、repeat-rich long noncoding RNAs のシークエンスとアノテーションが正確にできたということ。
X-染色体inactivation に関わるRSX遺伝子もきちんとFemaleサンプルからのみ発現されていたらしい。

また、代謝酵素であるCytochrome P450 family2 subfamily C遺伝子が、コアラゲノム上で広く存在していたらしい。
これはユーカリが持つ毒素を無害化するため、進化の過程でゲノムの中に作られた必要なメカニズムなのでしょうね。

私が感じたこの論文のすごいところは、単にゲノム読みました!の論文では無く、これを読むとコアラの生態、生物学的特徴、感染症や免疫学までがひととおりざっくりわかってしまうこと。
普段コアラのマーチでしかコアラに縁がない私にとって、コアラが身近に感じた、そんな論文でした。

2018年6月15日金曜日

Assembling high-quality human reference genomes for global populations

梅雨ですね。雨の季節。
水不足にならないためにも雨は大事、とわかっているけど、雨の日はテンションが上がらない。
と思っていたら、沖縄で考えが変わりました!
梅雨と言えばシトシト降るイメージだったのですが、沖縄の梅雨はザーザー! 
嵐でした。

さて人種ごとにヒトゲノムを決めるプロジェクトが、世界中で行われているのはご存じかもしれません。
最近だと、スウェーデン人の男女のゲノムが話題になりました。

ヒトゲノムを読むということと、決めるということの間には大きなギャップがあります。
読むのはPacBioをはじめ、ONTやIlluminaショートリード、さらにBioNanoや10X Genomics、Hi-CやChicagoなどたくさんの技術がありますので、お金がある限りランしてヒトゲノムのピースのデータはたくさん得ることができます。

しかしそこからヒトゲノム配列を正しく決める、というのは大変な作業です。
なかなかその「決め方」について、「プロセス」について、の発表を聞く機会は少ないと思いますが、良いウェビナーがありますのでお知らせします。


Assembling high-quality human reference genomes for global populations

1時間ほどの長いウェビナーですが、2人目のスピーカーはスウェーデンゲノムのひとです。以下そのウェビナーからのスクリーンショット。
PacBioとBioNanoのデータをハイブリッドアセンブリしているのがキーです。

3人目のスピーカーは我らがPacBioのPaulさん!
何度も日本に来ている日本食大好きのイタリア系カリフォルニア人です。
彼はPacBio設立時からの早期メンバーの一人で、PacBioシークエンスについては何でも知っています。
実験の話も出てきますのでこれも面白いですよ。



2018年6月8日金曜日

Dovetail Genomicsの最近の論文集

先日Dovetail GenomicsのHi-Cの話をしたので、今日は、論文リストを紹介
投稿中のものも含まれます。色んな生物ゲノムが読まれているんだなあ・・・

Dovetail Genomics Current Publications !!

【Genome Assembly】

Improved Genome Assembly and Annotation for the Rock Pigeon (Columba livia)
Holt C et al. G3 (Bethesda). 2018 May 4;8(5):1391-1398. doi: 10.1534/g3.117.300443.

The sea lamprey germline genome provides insights into programmed genome rearrangement and vertebrate evolution
Smith JJ et al. Nat Genet. 2018 May;50(5):768. doi: 10.1038/s41588-018-0075-2.

A High-Quality Reference Genome for the Invasive Mosquitofish Gambusia affinis Using a Chicago Library
Hoffberg SL et al. G3 (Bethesda). 2018 Apr 27. pii: g3.200101.2018. doi:10.1534/g3.118.200101.

EquCab3, an Updated Reference Genome for the Domestic Horse
Kalbfleisch TS et al. 2018 Apr 25; Pre-print*.

High quality whole genome sequence of an abundant Holarctic odontocete, the harbour porpoise (Phocoena phocoena)
Autenrieth M et al. 2018 Apr 19; Pre-print*.

Hologenomic adaptations underlying the evolution of sanguivory in the common vampire bat
Medoza MLZ et al. Nat Ecol Evol. 2018 Apr;2(4):659-668. doi: 10.1038/s41559-018-0476-8.

Whole-genome assembly of the coral reef Pearlscale Pygmy Angelfish (Centropyge vrolikii)
Fernandez-Silva I et al. Sci Rep. 2018 Jan 24;8(1):1498. doi: 10.1038/s41598-018-19430-x.

Genetic architecture drives seasonal onset of hibernation in the 13-lined ground squirrel
Grabek KR et al. 2017 Dec 2; Pre-print*.

The draft genome of tropical fruit durian (Durio zibethinus)
Teh BT et al. Nat Genet. 2017 Nov;49(11):1633-1641. doi: 10.1038/ng.3972.

Strategies for optimizing BioNano and Dovetail explored through a second reference quality assembly for the legume model, Medicago truncatula
Moll KM et al. BMC Genomics. 2017 Aug 4;18(1):578. doi: 10.1186/s12864-017-3971-4.

Rapid cloning of genes in hexaploid wheat using cultivar-specific long-range chromosome assembly
Thind AK et al. Nat Biotechnol. 2017 Aug;35(8):793-796. doi: 10.1038/nbt.3877.

The house spider genome reveals an ancient whole-genome duplication during arachnid evolution
Schwager EE et al. BMC Biol. 2017 Jul 31;15(1):62. doi: 10.1186/s12915-017-0399-x.

The Molecular Genetic Basis of Herbivory between Butterflies and their Host-Plants
Nallu S et al. 2017 Jun 23; Pre-print*.

Improved genome assembly of American alligator genome reveals conserved architecture of estrogen signaling
Rice ES et al. Genome Res. 2017 May;27(5):686-696. doi: 10.1101/gr.213595.116.

Improving and correcting the contiguity of long-read genome assemblies of three plant species using optical mapping and chromosome conformation capture data
Jiao WB et al. Genome Res. 2017 May;27(5):778-786. doi: 10.1101/gr.213652.116.

The impact of third generation genomic technologies on plant genome assembly
Jaio WB & Scheeberger K. Curr Opin Plant Biol. 2017 Apr;36:64-70. doi:10.1016/j.pbi.2017.02.002.

Genome assembly with in vitro proximity ligation data and whole-genome triplication in lettuce
Reyes-Chin-Wo S et al. Nat Commun. 2017 Apr 12;8:14953. doi: 10.1038/ncomms14953.

The genome of Chenopodium quinoa
Jarvis DE et al. Nature. 2017 Feb 16;542(7641):307-312. doi: 10.1038/nature21370.

De novo hybrid assembly of the rubber tree genome reveals evidence of paleotetraploidy in Hevea species
Pootakham W et al. Sci Rep. 2017 Feb 2;7:41457. doi: 10.1038/srep41457.

Genome evolution in the allotetraploid frog Xenopus laevis
Session AM et al. Nature. 2016 Oct 20;538(7625):336-343. doi: 10.1038/nature19840.

Sequencing wild and cultivated cassava and related species reveals extensive interspecific hybridization and genetic diversity
Bredeson JV et al. Nat Biotechnol. 2016 May;34(5):562-70. doi: 10.1038/nbt.3535.

Chromosome-scale shotgun assembly using an in vitro method for long-range linkage
Putnam N et al. Genome Res. 2016 Mar;26(3):342-50. doi: 10.1101/gr.193474.115.

【FixC & Selva】
Structural variation detection by proximity ligation from FFPE tumor tissue
Troll C et al. 2018 Feb 27; Pre-print*.

*Pre-print articles available on bioRxiv

あと、ついでといっては失礼ですが、来週12日(火)にイルミナ社のウェブセミナーで、理研の工樂さんによるHi-Cのお話があります。
私は立場上、イルミナ社の宣伝したら怒られますが(笑)、これは純粋にゲノムサイエンス&技術の話なので良いかと。
興味のあるかたはどうぞ!

2018年6月7日木曜日

PacBioデータとHi-Cデータがあるなら、これ! Falcon Phase

先日、Hi-Cソフトウェアの話をしましたがその続きを少し。
PacBioのアセンブリとHi-Cスキャフォルディングを組み合わせた、その名も、
Falcon Phase
論文はここから
ソフトウェアはここから
因みにこのソフトはPacBioはサポート外です。バグなどは直接GitHubにお知らせくださいね。
そして、PacBioのSara Kinganが先月、SFAFで発表したスライドがこちら
DiploidのアセンブラーといえばFalconがあります。
Falcon+Unzipの弱点は、Primary Contigの中にも、Haplotype switchという現象が起こりうることです。
一本のPrimary Contigが必ず同じ染色体(ハプロタイプ)由来かというと、実はそうでは無く、十分長いHomozygousの部分がある限り、バブルの部分、Heterozygousの部分をきれいにハプロタイプに分けるのは難しい。
リード長に収まる範囲のSNPがキチンとPhasingできるのとは、少し別次元の話です。
Haplotype switchは、アセンブリした後の数百キロ~数メガ塩基のレベルで起こりうる現象です。
とここまで書いてて、書き言葉では全く伝わらないことに気づいた、、。
Primary Contigは、100%正確なハプロタイプというわけではなく、このようなHaplotype switchが起こる可能性があるので、Pseudo-haplotypeと呼ぶべきでしょう。

Falcon Phaseは、このHaplotype switchをできるだけ無くし、正しいハプロタイプを作るために開発されました。
まず、Unzipの結果からスタートします。
Priamry Contigのどこの部分がハプロタイプなのか(Associate Contigがある場所)を決めて、Primary Contigの中のフェージングしていた場所を分けます(Phase Block)。
その後、Hi-Cデータを加えて、Phase Blockが本当はどちらの染色体由来だったのか、をHi-Cのマッピング情報から推測するわけです。

なるほど、良く考えたな。

もちろん、Dovetail GenomicsのHi-Cデータもそのまま使えますので、ヘテロ性の高い、F1ハイブリッドをシークエンスした方は試してみたらいかがでしょうか?
1Gbゲノムサイズあたり、1億リードぺアのHi-Cデータが必要らしいです。



2018年5月29日火曜日

ヒト構造解析とFix-C

前回Hi-Cについて少し触れたので、もうちょっと。
Hi-Cと言えばこれらの論文が有名です。


結構前からあるテクノロジーなんですね。
元々は染色体の構造、3次元での構造を解析する技術です。

それをゲノムアセンブリに応用したのが、Chicagoであり、Dovetail Hi-Cであったわけですが、もともとの構造解析という使い方を応用して、「ヒトゲノム構造解析」というのも可能なわけです。

Dovetailのヒトゲノム構造解析サービスは、アメリカではすでに行われています。

この資料はここからダウンロードできます。

実験の原理は、ゲノムアセンブリに使うHi-Cと同じです。
最初のサンプルが血液、細胞、またはFFPEサンプルになります。

ちなみに血液なら2mL 、細胞の場合10の7乗個程度、FFPEは厚さ10μmのスライス、組織の場合は1平方㎝ x 20μmが必要量らしいです。
そこからHi-Cライブラリを作製し、HiSeqを使って2x150PEで150M本読む。

そしてヒトゲノム参照配列にマッピングし、距離の分布図を作る。
染色体レベルの転座や大きな欠損変異などを検出する。
→解析のソフトウェアは、Selvaというものを用いる。

検出できる変異の大きさは、50kb以上です。それ以下だと感度が下がるそうです。
つまり、PacBioとは競合しない!!
PacBioは50bp~50kbくらいまでのInDel検出が得意だけれども、50kb以上の巨大な変異はリードが届かないので検出できない。
Hi-Cは連続配列では無くリードペアで変異を検出するので、あまり小さい変異検出だとノイズと差がはっきりしない。そのかわり、染色体レベルの構造変異検出には強い!

論文もbioRxivですが投稿されていますので、アルゴリズムに興味のあるひとはどうぞ。
検出感度でいうと、FISHと比べてもひけをとらず、例えば12個のがんのFFPEサンプル(20~90%の割合)をHi-C+Selvaで解析し、FISHで検出できた変異とどれくらい合っていたか、を比較したデータがあります。
Dovetailヒト構造解析のProduct Highlightから
ダウンロードできる資料です
ほとんどはFISHの結果と正しく、またサンプル#1や#6は、FISHの方が間違っていたそうです。がん細胞の割合が20%のとき、50kb以上の大きさの構造変異の検出感度は67%です。100%がん細胞のときは検出感度90%だそうです。

そしてこのFFPEからのHi-C、というサービスを行っている会社はほかに無いらしく、Fix-Cという商標をつけています。
FFPEはもともとDNAがフラグメント化しているから、ロングリードには向かないんですよね。

最後に、これは「まだ」受託サービスのみ、の商品なんです。
つまりサンプルをアメリカに送らなければいけない。
アメリカ国内のサンプルなら国内移動で問題無いので結構売れているらしいです

キットやソフトウェアの配布は、今のところ、予定はありません。
そういうニーズが世界的に増えて、キット&ソフトウェアの配布が可能になればもっと世界に広がる技術だと思うのですが。
とりあえず、海外へ送ってもいいサンプルで、この変異解析に興味がある方は連絡ください。
1サンプル、凄く高めに見積もっても50万円くらいです。
実際は都度見積もりですけれど。