PacBioのブログの姉妹版、名前「くろみうんの冒険」に変えました (8/7)を始めました。
ゲノムとシングルセル解析のグローバルリーダー、10X Genomics をもっともっと知ってもらうために、頑張って続けていこうと思います。
名前の由来、くろみうん、というのはですね、10xの装置Chromiumをカッコ良く発音するとそう聞こえるからですよ!
でもまだ検索に引っかからない。
みなさんどうぞ宜しくお願いしまっす!
2018年7月30日月曜日
2018年7月8日日曜日
「第三世代シーケンサー」とは PacBio のことさー
産経ニュースにPacBioを使ったアセンブリのニュースが載った件 |
以前、アホロートル(40代以上のひとにはウーパールーパーという名前の方がなじみが深い?)のゲノムがPacBioシークエンサーで解読された、ということをこのブログでも書きました。
それが産経ニュースで紹介されていた、、、って、今更?
俺が書いたの1月だよ、まったく。
いや、これ速報性は求められていないから、って言われたりして。
PacBioのことは名前は伏せて、「第三世代シーケンサー」と書かれています。
まあ、我々は一発でわかりますよね?
「ポータブルシーケンサー」とは書かれていないから、あっちじゃない、ともわかります。
さて、
趣味で始めたこのPacBioブログ:パックマンの挑戦 ですが、6年半で252本の記事を書いてきました。よう続いたなあー
仕事じゃないですからね。完全に自由にやってますので。
途中でやめても良かったんですが、なんかライフワークの一部になってしまって。
そんな「パックマンの挑戦」ですが、今回の記事が最後になります。
誤解の無いように申し上げると、PacBioはまだまだこれからもロングリードシークエンスのグローバルスタンダードとして、発展していきます!
ただ、私がPacBioにたずさわるのが、これで最後という意味です。
今まで楽しみに読んでくれた皆さま、ありがとうございました!
また来月、新しいタイトルのブログが始まりますので、そっちもよろしくお願いします!
2018年7月7日土曜日
コアラゲノム解読!
私が思う、子供の頃から好きなお菓子ベストスリーといえば、
きのこの山、たけのこの里、そしてコアラのマーチです。
共通点は、チョコレート、甘過ぎない、だいたいどこでも売ってるということ。
コアラのマーチのオリジナル(チョコ)に描かれているコアラはおんぶしていますが、実物のコアラはそんなにおんぶしてますかね?
抱っこの方が多くないかな。カンガルーと同じ有袋類ですし(あまり関係なさそうだけどイメージとして有袋類は抱っこのほうが楽そう)。
そんなコアラのゲノムがPacBioのロングリードで解読されたそうです!!
きのこの山、たけのこの里、そしてコアラのマーチです。
共通点は、チョコレート、甘過ぎない、だいたいどこでも売ってるということ。
コアラのマーチのオリジナル(チョコ)に描かれているコアラはおんぶしていますが、実物のコアラはそんなにおんぶしてますかね?
抱っこの方が多くないかな。カンガルーと同じ有袋類ですし(あまり関係なさそうだけどイメージとして有袋類は抱っこのほうが楽そう)。
そんなコアラのゲノムがPacBioのロングリードで解読されたそうです!!
京都大学のプレスリリース
コアラはユーカリの葉しか食べません。でもユーカリには毒があるから、ほとんどの哺乳類はユーカリの葉は食べられない。
ってことはコアラは食べ物をほぼ独占できるということ!
じゃあなぜコアラはユーカリの毒を解毒できるのか?
ってことはコアラは食べ物をほぼ独占できるということ!
じゃあなぜコアラはユーカリの毒を解毒できるのか?
論文では、ゲノムシークエンスはPacBioがメインで使用され、BioNanoでスキャフォルディング、Illuminaで配列エラー補正、しています。
先ずはコアラゲノム(約3.4Gb)の、57カバレッジ分のPacBioデータでFalconアセンブリ。
N50がなんと11.6Mb!
結構行きましたなあ。これはすごい。
たった57カバレッジのデータでN50が11Mb超えなんて、あまり聞いたことがありません。
アセンブリしたゲノムの47%がリピート配列らしいです。
またBUSCO解析の結果、4104個の哺乳類代表遺伝子の95.1%をカバーしていたらしい。
PacBioロングリードの素晴らしさは、repeat-rich long noncoding RNAs のシークエンスとアノテーションが正確にできたということ。
X-染色体inactivation に関わるRSX遺伝子もきちんとFemaleサンプルからのみ発現されていたらしい。
また、代謝酵素であるCytochrome P450 family2 subfamily C遺伝子が、コアラゲノム上で広く存在していたらしい。
これはユーカリが持つ毒素を無害化するため、進化の過程でゲノムの中に作られた必要なメカニズムなのでしょうね。
私が感じたこの論文のすごいところは、単にゲノム読みました!の論文では無く、これを読むとコアラの生態、生物学的特徴、感染症や免疫学までがひととおりざっくりわかってしまうこと。
普段コアラのマーチでしかコアラに縁がない私にとって、コアラが身近に感じた、そんな論文でした。
アセンブリしたゲノムの47%がリピート配列らしいです。
またBUSCO解析の結果、4104個の哺乳類代表遺伝子の95.1%をカバーしていたらしい。
PacBioロングリードの素晴らしさは、repeat-rich long noncoding RNAs のシークエンスとアノテーションが正確にできたということ。
X-染色体inactivation に関わるRSX遺伝子もきちんとFemaleサンプルからのみ発現されていたらしい。
また、代謝酵素であるCytochrome P450 family2 subfamily C遺伝子が、コアラゲノム上で広く存在していたらしい。
これはユーカリが持つ毒素を無害化するため、進化の過程でゲノムの中に作られた必要なメカニズムなのでしょうね。
私が感じたこの論文のすごいところは、単にゲノム読みました!の論文では無く、これを読むとコアラの生態、生物学的特徴、感染症や免疫学までがひととおりざっくりわかってしまうこと。
普段コアラのマーチでしかコアラに縁がない私にとって、コアラが身近に感じた、そんな論文でした。
2018年6月15日金曜日
Assembling high-quality human reference genomes for global populations
梅雨ですね。雨の季節。
水不足にならないためにも雨は大事、とわかっているけど、雨の日はテンションが上がらない。
と思っていたら、沖縄で考えが変わりました!
梅雨と言えばシトシト降るイメージだったのですが、沖縄の梅雨はザーザー!
嵐でした。
さて人種ごとにヒトゲノムを決めるプロジェクトが、世界中で行われているのはご存じかもしれません。
最近だと、スウェーデン人の男女のゲノムが話題になりました。
ヒトゲノムを読むということと、決めるということの間には大きなギャップがあります。
読むのはPacBioをはじめ、ONTやIlluminaショートリード、さらにBioNanoや10X Genomics、Hi-CやChicagoなどたくさんの技術がありますので、お金がある限りランしてヒトゲノムのピースのデータはたくさん得ることができます。
しかしそこからヒトゲノム配列を正しく決める、というのは大変な作業です。
なかなかその「決め方」について、「プロセス」について、の発表を聞く機会は少ないと思いますが、良いウェビナーがありますのでお知らせします。
Assembling high-quality human reference genomes for global populations
1時間ほどの長いウェビナーですが、2人目のスピーカーはスウェーデンゲノムのひとです。以下そのウェビナーからのスクリーンショット。
PacBioとBioNanoのデータをハイブリッドアセンブリしているのがキーです。
3人目のスピーカーは我らがPacBioのPaulさん!
何度も日本に来ている日本食大好きのイタリア系カリフォルニア人です。
彼はPacBio設立時からの早期メンバーの一人で、PacBioシークエンスについては何でも知っています。
実験の話も出てきますのでこれも面白いですよ。
水不足にならないためにも雨は大事、とわかっているけど、雨の日はテンションが上がらない。
と思っていたら、沖縄で考えが変わりました!
梅雨と言えばシトシト降るイメージだったのですが、沖縄の梅雨はザーザー!
嵐でした。
さて人種ごとにヒトゲノムを決めるプロジェクトが、世界中で行われているのはご存じかもしれません。
最近だと、スウェーデン人の男女のゲノムが話題になりました。
ヒトゲノムを読むということと、決めるということの間には大きなギャップがあります。
読むのはPacBioをはじめ、ONTやIlluminaショートリード、さらにBioNanoや10X Genomics、Hi-CやChicagoなどたくさんの技術がありますので、お金がある限りランしてヒトゲノムのピースのデータはたくさん得ることができます。
しかしそこからヒトゲノム配列を正しく決める、というのは大変な作業です。
なかなかその「決め方」について、「プロセス」について、の発表を聞く機会は少ないと思いますが、良いウェビナーがありますのでお知らせします。
Assembling high-quality human reference genomes for global populations
1時間ほどの長いウェビナーですが、2人目のスピーカーはスウェーデンゲノムのひとです。以下そのウェビナーからのスクリーンショット。
PacBioとBioNanoのデータをハイブリッドアセンブリしているのがキーです。
3人目のスピーカーは我らがPacBioのPaulさん!
何度も日本に来ている日本食大好きのイタリア系カリフォルニア人です。
彼はPacBio設立時からの早期メンバーの一人で、PacBioシークエンスについては何でも知っています。
実験の話も出てきますのでこれも面白いですよ。
2018年6月8日金曜日
Dovetail Genomicsの最近の論文集
先日Dovetail GenomicsのHi-Cの話をしたので、今日は、論文リストを紹介
投稿中のものも含まれます。色んな生物ゲノムが読まれているんだなあ・・・
Dovetail Genomics Current Publications !!
【Genome Assembly】
Improved Genome Assembly and Annotation for the Rock Pigeon (Columba livia)
Holt C et al. G3 (Bethesda). 2018 May 4;8(5):1391-1398. doi: 10.1534/g3.117.300443.
The sea lamprey germline genome provides insights into programmed genome rearrangement and vertebrate evolution
Smith JJ et al. Nat Genet. 2018 May;50(5):768. doi: 10.1038/s41588-018-0075-2.
A High-Quality Reference Genome for the Invasive Mosquitofish Gambusia affinis Using a Chicago Library
Hoffberg SL et al. G3 (Bethesda). 2018 Apr 27. pii: g3.200101.2018. doi:10.1534/g3.118.200101.
EquCab3, an Updated Reference Genome for the Domestic Horse
Kalbfleisch TS et al. 2018 Apr 25; Pre-print*.
High quality whole genome sequence of an abundant Holarctic odontocete, the harbour porpoise (Phocoena phocoena)
Autenrieth M et al. 2018 Apr 19; Pre-print*.
Hologenomic adaptations underlying the evolution of sanguivory in the common vampire bat
Medoza MLZ et al. Nat Ecol Evol. 2018 Apr;2(4):659-668. doi: 10.1038/s41559-018-0476-8.
Whole-genome assembly of the coral reef Pearlscale Pygmy Angelfish (Centropyge vrolikii)
Fernandez-Silva I et al. Sci Rep. 2018 Jan 24;8(1):1498. doi: 10.1038/s41598-018-19430-x.
Genetic architecture drives seasonal onset of hibernation in the 13-lined ground squirrel
Grabek KR et al. 2017 Dec 2; Pre-print*.
The draft genome of tropical fruit durian (Durio zibethinus)
Teh BT et al. Nat Genet. 2017 Nov;49(11):1633-1641. doi: 10.1038/ng.3972.
Strategies for optimizing BioNano and Dovetail explored through a second reference quality assembly for the legume model, Medicago truncatula
Moll KM et al. BMC Genomics. 2017 Aug 4;18(1):578. doi: 10.1186/s12864-017-3971-4.
Rapid cloning of genes in hexaploid wheat using cultivar-specific long-range chromosome assembly
Thind AK et al. Nat Biotechnol. 2017 Aug;35(8):793-796. doi: 10.1038/nbt.3877.
The house spider genome reveals an ancient whole-genome duplication during arachnid evolution
Schwager EE et al. BMC Biol. 2017 Jul 31;15(1):62. doi: 10.1186/s12915-017-0399-x.
The Molecular Genetic Basis of Herbivory between Butterflies and their Host-Plants
Nallu S et al. 2017 Jun 23; Pre-print*.
Improved genome assembly of American alligator genome reveals conserved architecture of estrogen signaling
Rice ES et al. Genome Res. 2017 May;27(5):686-696. doi: 10.1101/gr.213595.116.
Improving and correcting the contiguity of long-read genome assemblies of three plant species using optical mapping and chromosome conformation capture data
Jiao WB et al. Genome Res. 2017 May;27(5):778-786. doi: 10.1101/gr.213652.116.
The impact of third generation genomic technologies on plant genome assembly
Jaio WB & Scheeberger K. Curr Opin Plant Biol. 2017 Apr;36:64-70. doi:10.1016/j.pbi.2017.02.002.
Genome assembly with in vitro proximity ligation data and whole-genome triplication in lettuce
Reyes-Chin-Wo S et al. Nat Commun. 2017 Apr 12;8:14953. doi: 10.1038/ncomms14953.
The genome of Chenopodium quinoa
Jarvis DE et al. Nature. 2017 Feb 16;542(7641):307-312. doi: 10.1038/nature21370.
De novo hybrid assembly of the rubber tree genome reveals evidence of paleotetraploidy in Hevea species
Pootakham W et al. Sci Rep. 2017 Feb 2;7:41457. doi: 10.1038/srep41457.
Genome evolution in the allotetraploid frog Xenopus laevis
Session AM et al. Nature. 2016 Oct 20;538(7625):336-343. doi: 10.1038/nature19840.
Sequencing wild and cultivated cassava and related species reveals extensive interspecific hybridization and genetic diversity
Bredeson JV et al. Nat Biotechnol. 2016 May;34(5):562-70. doi: 10.1038/nbt.3535.
Chromosome-scale shotgun assembly using an in vitro method for long-range linkage
Putnam N et al. Genome Res. 2016 Mar;26(3):342-50. doi: 10.1101/gr.193474.115.
【FixC & Selva】
Structural variation detection by proximity ligation from FFPE tumor tissue
Troll C et al. 2018 Feb 27; Pre-print*.
*Pre-print articles available on bioRxiv
あと、ついでといっては失礼ですが、来週12日(火)にイルミナ社のウェブセミナーで、理研の工樂さんによるHi-Cのお話があります。
私は立場上、イルミナ社の宣伝したら怒られますが(笑)、これは純粋にゲノムサイエンス&技術の話なので良いかと。
興味のあるかたはどうぞ!
投稿中のものも含まれます。色んな生物ゲノムが読まれているんだなあ・・・
Dovetail Genomics Current Publications !!
【Genome Assembly】
Improved Genome Assembly and Annotation for the Rock Pigeon (Columba livia)
Holt C et al. G3 (Bethesda). 2018 May 4;8(5):1391-1398. doi: 10.1534/g3.117.300443.
The sea lamprey germline genome provides insights into programmed genome rearrangement and vertebrate evolution
Smith JJ et al. Nat Genet. 2018 May;50(5):768. doi: 10.1038/s41588-018-0075-2.
A High-Quality Reference Genome for the Invasive Mosquitofish Gambusia affinis Using a Chicago Library
Hoffberg SL et al. G3 (Bethesda). 2018 Apr 27. pii: g3.200101.2018. doi:10.1534/g3.118.200101.
EquCab3, an Updated Reference Genome for the Domestic Horse
Kalbfleisch TS et al. 2018 Apr 25; Pre-print*.
High quality whole genome sequence of an abundant Holarctic odontocete, the harbour porpoise (Phocoena phocoena)
Autenrieth M et al. 2018 Apr 19; Pre-print*.
Hologenomic adaptations underlying the evolution of sanguivory in the common vampire bat
Medoza MLZ et al. Nat Ecol Evol. 2018 Apr;2(4):659-668. doi: 10.1038/s41559-018-0476-8.
Whole-genome assembly of the coral reef Pearlscale Pygmy Angelfish (Centropyge vrolikii)
Fernandez-Silva I et al. Sci Rep. 2018 Jan 24;8(1):1498. doi: 10.1038/s41598-018-19430-x.
Genetic architecture drives seasonal onset of hibernation in the 13-lined ground squirrel
Grabek KR et al. 2017 Dec 2; Pre-print*.
The draft genome of tropical fruit durian (Durio zibethinus)
Teh BT et al. Nat Genet. 2017 Nov;49(11):1633-1641. doi: 10.1038/ng.3972.
Strategies for optimizing BioNano and Dovetail explored through a second reference quality assembly for the legume model, Medicago truncatula
Moll KM et al. BMC Genomics. 2017 Aug 4;18(1):578. doi: 10.1186/s12864-017-3971-4.
Rapid cloning of genes in hexaploid wheat using cultivar-specific long-range chromosome assembly
Thind AK et al. Nat Biotechnol. 2017 Aug;35(8):793-796. doi: 10.1038/nbt.3877.
The house spider genome reveals an ancient whole-genome duplication during arachnid evolution
Schwager EE et al. BMC Biol. 2017 Jul 31;15(1):62. doi: 10.1186/s12915-017-0399-x.
The Molecular Genetic Basis of Herbivory between Butterflies and their Host-Plants
Nallu S et al. 2017 Jun 23; Pre-print*.
Improved genome assembly of American alligator genome reveals conserved architecture of estrogen signaling
Rice ES et al. Genome Res. 2017 May;27(5):686-696. doi: 10.1101/gr.213595.116.
Improving and correcting the contiguity of long-read genome assemblies of three plant species using optical mapping and chromosome conformation capture data
Jiao WB et al. Genome Res. 2017 May;27(5):778-786. doi: 10.1101/gr.213652.116.
The impact of third generation genomic technologies on plant genome assembly
Jaio WB & Scheeberger K. Curr Opin Plant Biol. 2017 Apr;36:64-70. doi:10.1016/j.pbi.2017.02.002.
Genome assembly with in vitro proximity ligation data and whole-genome triplication in lettuce
Reyes-Chin-Wo S et al. Nat Commun. 2017 Apr 12;8:14953. doi: 10.1038/ncomms14953.
The genome of Chenopodium quinoa
Jarvis DE et al. Nature. 2017 Feb 16;542(7641):307-312. doi: 10.1038/nature21370.
De novo hybrid assembly of the rubber tree genome reveals evidence of paleotetraploidy in Hevea species
Pootakham W et al. Sci Rep. 2017 Feb 2;7:41457. doi: 10.1038/srep41457.
Genome evolution in the allotetraploid frog Xenopus laevis
Session AM et al. Nature. 2016 Oct 20;538(7625):336-343. doi: 10.1038/nature19840.
Sequencing wild and cultivated cassava and related species reveals extensive interspecific hybridization and genetic diversity
Bredeson JV et al. Nat Biotechnol. 2016 May;34(5):562-70. doi: 10.1038/nbt.3535.
Chromosome-scale shotgun assembly using an in vitro method for long-range linkage
Putnam N et al. Genome Res. 2016 Mar;26(3):342-50. doi: 10.1101/gr.193474.115.
【FixC & Selva】
Structural variation detection by proximity ligation from FFPE tumor tissue
Troll C et al. 2018 Feb 27; Pre-print*.
*Pre-print articles available on bioRxiv
あと、ついでといっては失礼ですが、来週12日(火)にイルミナ社のウェブセミナーで、理研の工樂さんによるHi-Cのお話があります。
私は立場上、イルミナ社の宣伝したら怒られますが(笑)、これは純粋にゲノムサイエンス&技術の話なので良いかと。
興味のあるかたはどうぞ!
2018年6月7日木曜日
PacBioデータとHi-Cデータがあるなら、これ! Falcon Phase
先日、Hi-Cソフトウェアの話をしましたがその続きを少し。
PacBioのアセンブリとHi-Cスキャフォルディングを組み合わせた、その名も、
Falcon Phase
論文はここから
ソフトウェアはここから
因みにこのソフトはPacBioはサポート外です。バグなどは直接GitHubにお知らせくださいね。
そして、PacBioのSara Kinganが先月、SFAFで発表したスライドがこちら
DiploidのアセンブラーといえばFalconがあります。
Falcon+Unzipの弱点は、Primary Contigの中にも、Haplotype switchという現象が起こりうることです。
一本のPrimary Contigが必ず同じ染色体(ハプロタイプ)由来かというと、実はそうでは無く、十分長いHomozygousの部分がある限り、バブルの部分、Heterozygousの部分をきれいにハプロタイプに分けるのは難しい。
リード長に収まる範囲のSNPがキチンとPhasingできるのとは、少し別次元の話です。
Haplotype switchは、アセンブリした後の数百キロ~数メガ塩基のレベルで起こりうる現象です。
とここまで書いてて、書き言葉では全く伝わらないことに気づいた、、。
Primary Contigは、100%正確なハプロタイプというわけではなく、このようなHaplotype switchが起こる可能性があるので、Pseudo-haplotypeと呼ぶべきでしょう。
Falcon Phaseは、このHaplotype switchをできるだけ無くし、正しいハプロタイプを作るために開発されました。
まず、Unzipの結果からスタートします。
Priamry Contigのどこの部分がハプロタイプなのか(Associate Contigがある場所)を決めて、Primary Contigの中のフェージングしていた場所を分けます(Phase Block)。
その後、Hi-Cデータを加えて、Phase Blockが本当はどちらの染色体由来だったのか、をHi-Cのマッピング情報から推測するわけです。
なるほど、良く考えたな。
もちろん、Dovetail GenomicsのHi-Cデータもそのまま使えますので、ヘテロ性の高い、F1ハイブリッドをシークエンスした方は試してみたらいかがでしょうか?
1Gbゲノムサイズあたり、1億リードぺアのHi-Cデータが必要らしいです。
PacBioのアセンブリとHi-Cスキャフォルディングを組み合わせた、その名も、
Falcon Phase
論文はここから
ソフトウェアはここから
因みにこのソフトはPacBioはサポート外です。バグなどは直接GitHubにお知らせくださいね。
そして、PacBioのSara Kinganが先月、SFAFで発表したスライドがこちら
DiploidのアセンブラーといえばFalconがあります。
Falcon+Unzipの弱点は、Primary Contigの中にも、Haplotype switchという現象が起こりうることです。
一本のPrimary Contigが必ず同じ染色体(ハプロタイプ)由来かというと、実はそうでは無く、十分長いHomozygousの部分がある限り、バブルの部分、Heterozygousの部分をきれいにハプロタイプに分けるのは難しい。
リード長に収まる範囲のSNPがキチンとPhasingできるのとは、少し別次元の話です。
Haplotype switchは、アセンブリした後の数百キロ~数メガ塩基のレベルで起こりうる現象です。
とここまで書いてて、書き言葉では全く伝わらないことに気づいた、、。
Primary Contigは、100%正確なハプロタイプというわけではなく、このようなHaplotype switchが起こる可能性があるので、Pseudo-haplotypeと呼ぶべきでしょう。
Falcon Phaseは、このHaplotype switchをできるだけ無くし、正しいハプロタイプを作るために開発されました。
まず、Unzipの結果からスタートします。
Priamry Contigのどこの部分がハプロタイプなのか(Associate Contigがある場所)を決めて、Primary Contigの中のフェージングしていた場所を分けます(Phase Block)。
その後、Hi-Cデータを加えて、Phase Blockが本当はどちらの染色体由来だったのか、をHi-Cのマッピング情報から推測するわけです。
なるほど、良く考えたな。
もちろん、Dovetail GenomicsのHi-Cデータもそのまま使えますので、ヘテロ性の高い、F1ハイブリッドをシークエンスした方は試してみたらいかがでしょうか?
1Gbゲノムサイズあたり、1億リードぺアのHi-Cデータが必要らしいです。
2018年5月29日火曜日
ヒト構造解析とFix-C
前回Hi-Cについて少し触れたので、もうちょっと。
Hi-Cと言えばこれらの論文が有名です。
Hi-Cと言えばこれらの論文が有名です。
- Hi-C: Lieberman-Aiden E. et al. (2009) Comprehensive mapping of long-range interactions reveals folding principles of the human genome. Science 326: 289-293
- 3-C: Duan Z. et al. (2012) A genome-wide 3C-method for characterizing the three-dimensional architectures of genomes. Methods 58: 277-288
結構前からあるテクノロジーなんですね。
元々は染色体の構造、3次元での構造を解析する技術です。
それをゲノムアセンブリに応用したのが、Chicagoであり、Dovetail Hi-Cであったわけですが、もともとの構造解析という使い方を応用して、「ヒトゲノム構造解析」というのも可能なわけです。
Dovetailのヒトゲノム構造解析サービスは、アメリカではすでに行われています。
この資料はここからダウンロードできます。
実験の原理は、ゲノムアセンブリに使うHi-Cと同じです。
最初のサンプルが血液、細胞、またはFFPEサンプルになります。
ちなみに血液なら2mL 、細胞の場合10の7乗個程度、FFPEは厚さ10μmのスライス、組織の場合は1平方㎝ x 20μmが必要量らしいです。
そこからHi-Cライブラリを作製し、HiSeqを使って2x150PEで150M本読む。
そしてヒトゲノム参照配列にマッピングし、距離の分布図を作る。
染色体レベルの転座や大きな欠損変異などを検出する。
→解析のソフトウェアは、Selvaというものを用いる。
検出できる変異の大きさは、50kb以上です。それ以下だと感度が下がるそうです。
つまり、PacBioとは競合しない!!
PacBioは50bp~50kbくらいまでのInDel検出が得意だけれども、50kb以上の巨大な変異はリードが届かないので検出できない。
Hi-Cは連続配列では無くリードペアで変異を検出するので、あまり小さい変異検出だとノイズと差がはっきりしない。そのかわり、染色体レベルの構造変異検出には強い!
論文もbioRxivですが投稿されていますので、アルゴリズムに興味のあるひとはどうぞ。
検出感度でいうと、FISHと比べてもひけをとらず、例えば12個のがんのFFPEサンプル(20~90%の割合)をHi-C+Selvaで解析し、FISHで検出できた変異とどれくらい合っていたか、を比較したデータがあります。
ほとんどはFISHの結果と正しく、またサンプル#1や#6は、FISHの方が間違っていたそうです。がん細胞の割合が20%のとき、50kb以上の大きさの構造変異の検出感度は67%です。100%がん細胞のときは検出感度90%だそうです。
そしてこのFFPEからのHi-C、というサービスを行っている会社はほかに無いらしく、Fix-Cという商標をつけています。
FFPEはもともとDNAがフラグメント化しているから、ロングリードには向かないんですよね。
最後に、これは「まだ」受託サービスのみ、の商品なんです。
つまりサンプルをアメリカに送らなければいけない。
アメリカ国内のサンプルなら国内移動で問題無いので結構売れているらしいです
キットやソフトウェアの配布は、今のところ、予定はありません。
そういうニーズが世界的に増えて、キット&ソフトウェアの配布が可能になればもっと世界に広がる技術だと思うのですが。
とりあえず、海外へ送ってもいいサンプルで、この変異解析に興味がある方は連絡ください。
1サンプル、凄く高めに見積もっても50万円くらいです。
実際は都度見積もりですけれど。
この資料はここからダウンロードできます。
実験の原理は、ゲノムアセンブリに使うHi-Cと同じです。
ちなみに血液なら2mL 、細胞の場合10の7乗個程度、FFPEは厚さ10μmのスライス、組織の場合は1平方㎝ x 20μmが必要量らしいです。
そこからHi-Cライブラリを作製し、HiSeqを使って2x150PEで150M本読む。
そしてヒトゲノム参照配列にマッピングし、距離の分布図を作る。
染色体レベルの転座や大きな欠損変異などを検出する。
→解析のソフトウェアは、Selvaというものを用いる。
検出できる変異の大きさは、50kb以上です。それ以下だと感度が下がるそうです。
つまり、PacBioとは競合しない!!
PacBioは50bp~50kbくらいまでのInDel検出が得意だけれども、50kb以上の巨大な変異はリードが届かないので検出できない。
Hi-Cは連続配列では無くリードペアで変異を検出するので、あまり小さい変異検出だとノイズと差がはっきりしない。そのかわり、染色体レベルの構造変異検出には強い!
論文もbioRxivですが投稿されていますので、アルゴリズムに興味のあるひとはどうぞ。
検出感度でいうと、FISHと比べてもひけをとらず、例えば12個のがんのFFPEサンプル(20~90%の割合)をHi-C+Selvaで解析し、FISHで検出できた変異とどれくらい合っていたか、を比較したデータがあります。
Dovetailヒト構造解析のProduct Highlightから ダウンロードできる資料です |
FFPEはもともとDNAがフラグメント化しているから、ロングリードには向かないんですよね。
最後に、これは「まだ」受託サービスのみ、の商品なんです。
つまりサンプルをアメリカに送らなければいけない。
アメリカ国内のサンプルなら国内移動で問題無いので結構売れているらしいです
キットやソフトウェアの配布は、今のところ、予定はありません。
そういうニーズが世界的に増えて、キット&ソフトウェアの配布が可能になればもっと世界に広がる技術だと思うのですが。
とりあえず、海外へ送ってもいいサンプルで、この変異解析に興味がある方は連絡ください。
1サンプル、凄く高めに見積もっても50万円くらいです。
実際は都度見積もりですけれど。
2018年5月27日日曜日
PacBio 解析ウェブセミナーと、Hi-C解析のソフト
先日は秋葉原にて、第4回目となる「PacBio現場の会」を行いました。
事前登録88名、プラス演者の先生方、協賛企業の方々、我々。
部屋のキャパの都合で88名で打ち切ったのですが、もっと大きな部屋を用意すれば良かったかなあ。
情報交換会やその後の有志二次会も楽しかった。
個人的な意見ですが、NGS現場の会の大会が無くなって、NGS関連の情報を総合的に、学術的な枠を超えて、得る場がほぼ無くなったと思います。
植物の研究者、魚類の研究者、微生物の研究者、がんの研究者、遺伝病の研究者、、、。
こういう方々が一同に会す場はなかなか無いですよね。
共通点はゲノム、ということでシークエンサー関連の企業のセミナーが集まりやすいのでしょうね。たいてい無料ですし。
余談ですが、大きな国際学会、例えばアメリカ人類遺伝学会とかでは、企業はブースやセミナーの他に、レストランを貸し切って招待制のディナーや、パーティー(Customer Appreciation Event )をするんです。
お客さんとのネットワーキングが主目的で、あとは主催企業のプレゼンなどがあります。
こういうの、日本でもできないかなあ。
さてさて、PacBioデータ解析のウェブセミナーが日本にやさしい時間帯で行われます!
深夜じゃないよ!
第一回: 6/7 1PM~ デノボアセンブリ解析のウェブセミナーです
A Sketch of Assembly Recipes for PacBio Data
初心者にもわかりやすい内容、と聞いていますので、これから始めるひとにも良いかと思います。
さてさて、今日お知らせしたいのはもうひとつ。
PacBioのデータのアセンブリと言えばFalcon+Unzipですよねー?
Hi-Cデータというのは、Dovetail Genomicsでも行っているあの、染色体レベルでスキャフォルディングをするデータです。
最近ではここのPAG報告で紹介しました。
Hi-Cについては遺伝研の東先生のこのスライドがとても良くまとまっていると思います。
このHi-Cデータを使ってPacBioのアセンブリ結果からスキャフォルディングするアルゴリズムの論文が出ました!
FALCON-Phase: Integrating PacBio and Hi-C data for phased diploid genomes
PacBioデータとHi-Cデータが手元にあって、アセンブリに興味のあるひとは使ってみたらいかがでしょうか?
事前登録88名、プラス演者の先生方、協賛企業の方々、我々。
部屋のキャパの都合で88名で打ち切ったのですが、もっと大きな部屋を用意すれば良かったかなあ。
情報交換会やその後の有志二次会も楽しかった。
個人的な意見ですが、NGS現場の会の大会が無くなって、NGS関連の情報を総合的に、学術的な枠を超えて、得る場がほぼ無くなったと思います。
植物の研究者、魚類の研究者、微生物の研究者、がんの研究者、遺伝病の研究者、、、。
こういう方々が一同に会す場はなかなか無いですよね。
共通点はゲノム、ということでシークエンサー関連の企業のセミナーが集まりやすいのでしょうね。たいてい無料ですし。
余談ですが、大きな国際学会、例えばアメリカ人類遺伝学会とかでは、企業はブースやセミナーの他に、レストランを貸し切って招待制のディナーや、パーティー(Customer Appreciation Event )をするんです。
お客さんとのネットワーキングが主目的で、あとは主催企業のプレゼンなどがあります。
こういうの、日本でもできないかなあ。
さてさて、PacBioデータ解析のウェブセミナーが日本にやさしい時間帯で行われます!
深夜じゃないよ!
第一回: 6/7 1PM~ デノボアセンブリ解析のウェブセミナーです
A Sketch of Assembly Recipes for PacBio Data
第二回: 6/14 1PM~ トランスクリプトーム解析のウェブセミナーです
さてさて、今日お知らせしたいのはもうひとつ。
PacBioのデータのアセンブリと言えばFalcon+Unzipですよねー?
Hi-Cデータというのは、Dovetail Genomicsでも行っているあの、染色体レベルでスキャフォルディングをするデータです。
最近ではここのPAG報告で紹介しました。
Hi-Cについては遺伝研の東先生のこのスライドがとても良くまとまっていると思います。
このHi-Cデータを使ってPacBioのアセンブリ結果からスキャフォルディングするアルゴリズムの論文が出ました!
FALCON-Phase: Integrating PacBio and Hi-C data for phased diploid genomes
PacBioデータとHi-Cデータが手元にあって、アセンブリに興味のあるひとは使ってみたらいかがでしょうか?
2018年5月4日金曜日
Sequel を爆買いする中国の勢いが止まらない(ジョークです)
注:ジョークです エイプリルフールネタにしようと思っていた
------------------------------------------------------------------------
中国では、Novogene社やAnnoroad社がSequelを10台単位で購入しているそうで、その爆買いぶりに開いた口が塞がらない。
そんな中、PacBio本社では、これからさらに来るであろう注文を見越して生産態勢を一層強化したそうです。
それがこの写真!
------------------------------------------------------------------------
中国では、Novogene社やAnnoroad社がSequelを10台単位で購入しているそうで、その爆買いぶりに開いた口が塞がらない。
そんな中、PacBio本社では、これからさらに来るであろう注文を見越して生産態勢を一層強化したそうです。
生産が完了したSequelたち |
日本含むアジアに向けてまもなく出荷予定のSequelたち |
積み出しを待つSequelたち |
こちらは欧米向け出荷予定のSequelたち |
これちょっと並び方がおかしい? それは真上から撮影したらわかります。
すみません、全体を写すとこうなります
遊び心がありますねー。
NGSの装置で会社のロゴを作ってしまうとは!!
ゴールデンウィーク中日ですからこういう軽いネタで許してください
はい、もちろんこれは本物の装置ではありません。USBです。
欲しいかたは↓こちらの会に参加してGET! 数に限りがあるので早いもの勝ち
5月18日「PacBio現場の会 2018」
まだ若干席がありますよ!
2018年4月29日日曜日
Genetics and Genomicsっていう夜中のバーチャルイベント
ゴールデンウイークですが、皆さんはいかがお過ごしでしょうか。
帰省? 旅行? それとも仕事?
私は家でのんびり、というわけにもいかず、初日は人間ドックでした。
直ぐわかる範囲では検査結果に異常は無く、若干白血球が低め、みたいなことを言われましたが気にするほどでは無いとのこと。
そんなわけでこんな時間(夜中)ですがパソコンに向かっています。
LabRoots.comが提供するバーチャルイベント、Genetics and Genomicsが再来週の5月9と10日にあるそうです。
PacBioを使ったメタゲノムの話が2つあるみたいなので、紹介しますね。
先ずは我らがCSOの話。ショットガンメタゲノムのお話も出てくるそうです。
こちらはrRNAのPCRアンプリコンで株レベルまでの微生物プロファイルをした話。
と、以上の2つがPacBio社からお知らせメールで回って来たのですが、いかんせん、時差がキツイ!
向こうの朝9時って日本の翌深夜1時なんですよねー。
1時に難しい話を英語でされて、寝落ちしない自信が無い・・・
私的には、以下の構造解析、NGMLRとSniffle の開発者の話も聞きたいけれどこれも深夜1時、ガクっ。
でもPacBioやNanoporeのデータを使って、さらに10Xのリンクドリードも使って、染色体構造解析をするあたり、やっぱり1時過ぎまで起きて聞きたいなあ。と思ってみたり。
リンク先はこちらです
興味のあるかたは、頑張って起きてみてください
夜中のイベント、っていうと楽しく聞こえるけど、ね。
帰省? 旅行? それとも仕事?
私は家でのんびり、というわけにもいかず、初日は人間ドックでした。
直ぐわかる範囲では検査結果に異常は無く、若干白血球が低め、みたいなことを言われましたが気にするほどでは無いとのこと。
そんなわけでこんな時間(夜中)ですがパソコンに向かっています。
LabRoots.comが提供するバーチャルイベント、Genetics and Genomicsが再来週の5月9と10日にあるそうです。
PacBioを使ったメタゲノムの話が2つあるみたいなので、紹介しますね。
先ずは我らがCSOの話。ショットガンメタゲノムのお話も出てくるそうです。
こちらはrRNAのPCRアンプリコンで株レベルまでの微生物プロファイルをした話。
と、以上の2つがPacBio社からお知らせメールで回って来たのですが、いかんせん、時差がキツイ!
向こうの朝9時って日本の翌深夜1時なんですよねー。
1時に難しい話を英語でされて、寝落ちしない自信が無い・・・
私的には、以下の構造解析、NGMLRとSniffle の開発者の話も聞きたいけれどこれも深夜1時、ガクっ。
でもPacBioやNanoporeのデータを使って、さらに10Xのリンクドリードも使って、染色体構造解析をするあたり、やっぱり1時過ぎまで起きて聞きたいなあ。と思ってみたり。
リンク先はこちらです
興味のあるかたは、頑張って起きてみてください
夜中のイベント、っていうと楽しく聞こえるけど、ね。
--------- 5/18(金)は秋葉原へ集合!------------
「PacBio 現場の会 2018」
登録はこちらから
5名の招待演者と
PacBio、Dovetail、その他最新NGS情報を
一度に聞ける年に一度のイベントです!
情報交換会もあります。
参加無料 空席あと少し、急げ‼
2018年4月23日月曜日
ローディングリコメンデーションという「推奨」
PacBioに限らず、ローディングリコメンデーションという単語があります。
アプライDNA量の推奨値、という方がわかりやすいでしょうか。
シークエンスデータが最も最適に出力されるような、DNAライブラリの濃度と量のことを示しています。
「最適に出力」という意味は「より長いリードをより多く出力」と考えてかまいません。
その前に、、、
P0、P1、P2、というPacBioに特別な単語があります。
これはZMWの中にポリメラーゼとSMRT Bellライブラリのコンプレックスが入ってシークエンスされるわけですが、そのデータを見て、
アプライDNA量の推奨値、という方がわかりやすいでしょうか。
シークエンスデータが最も最適に出力されるような、DNAライブラリの濃度と量のことを示しています。
「最適に出力」という意味は「より長いリードをより多く出力」と考えてかまいません。
その前に、、、
P0、P1、P2、というPacBioに特別な単語があります。
これはZMWの中にポリメラーゼとSMRT Bellライブラリのコンプレックスが入ってシークエンスされるわけですが、そのデータを見て、
- P0:データ無し→つまりZMWにライブラリが入っていない。空っぽ
- P1:きれいな1分子のDNAデータが出てくる→きちんとZMWにライブラリが入って、かつシークエンスがされていた
- P2:上記以外→データがノイズばかりの場合。ZMWに複数ライブラリが入った場合。クオリティが低いリードしか読まれていない場合など
を区別しています。
実際解析に使用されるデータは、P1のデータです。
アプライDNA量が極端に少なければ、ZMWに入るライブラリが少ししかないのでP0が増えます。逆に極端に多くライブラリを入れた場合は、オーバーロードと言って、P0は減るかもしれませんがP2が増えることが予想されます。
RSIIや初期のSequelの場合、ZMW全体のうち20%~40%のZMWからP1データが出力されることが望ましい、と言われていました。
ポワソン分布に従うならば33%、それをもっと上げるためにマグビーズなどが使用されて40%、多い時は50%を目指していました。
Sequelの5.1になり、そのリコメンデーションが改訂されました。ここ
- P1はほとんどのアプリケーションで50%以上を目指すように
(ただし、あまり多くのP1リードを目指すとリード長が短くなる恐れもある) - オーバーロード(ライブラリの入れすぎ)の指標は、P0の値を参考にする。P0は20%くらいが望ましく、10%を切るようならばライブラリ量を減らした方が良い
- Iso-Seqやアンプリコンの場合、Pre-extension(読む前にシークエンス反応をある程度進める方法)をするので、P1は70%を目指すことが可能で、P2は20%未満を狙う
- Expressキットを使うゲノムアセンブリ用のロングライブラリの場合、P1は50%台を目指す
- バクテリアのマルチプレックスは、P1は50~65%を狙う
と、細かいことですがつまり長いライブラリでもZMWの半分からは良いデータが出てくるような濃度でアプライすることを推奨しているのですね。
SequelセルのZMWは100万あるので、50万本のロングリードが1セルから出力されることを想定して、最適なライブラリ濃度を調整することが必要というわけです。
短めのライブラリ、Iso-Seqやアンプリコンの場合は、最高70万本の配列が出力されることが十分あり得るのでデータ単位のコストはかなり低くなると思います。
ここまで書きまして思うところがあるのですが、
P1の数字を狙って濃度調整することは難しい!
というのがユーザの本音だと思います。
なのであくまでもリコメンデーション、推奨、なのです。
「その値を狙ってアプライしたときが一番良い結果を生むと思います。ですが結果はサンプルにも依存するので必ず良い出力を出すという保証はございません」
という意味です。
なので受託に頼んでスループットが予想ほど良く無くても、受託会社さんを責めないでくださいね。
2018年4月17日火曜日
ハイブリッド でIso-Seqしたい方はこの論文を!
Iso-Seqは皆さんご存じですね。
PacBioのロングリードで完全長cDNAを一気に読んで、スプライシングバリアントを含めたRNAの構造解析をする方法です。
ショートリードでデノボで転写産物をシークエンス&アセンブリする方法には、Trinityという有名なものがあります。
しかしリピート配列があると正確に転写産物を再現できない、K-merサイズによってはアセンブリが不正確になる、など、ショートリードだけの完全長cDNAシークエンスには限界がありました。
そんな中、ショートリードでデノボアセンブリしたアイソフォームコンティグに、ロングリード配列をマッピングさせて、アイソフォーム全体の姿を再現するIDP-denovoというツールが出ました。
この論文はあくまでも、ショートリードがメインで、これを補佐する役割としてPacBioのロングリードが登場します。
正直、私はPacBio一本でやった方が良い気がしたのですが、、、。
だって最初のショートリードのアセンブルで、既に、読める配列がイルミナ技術に依存しているでしょう?
それからPacBioで一分子配列を付け足して補正、ってどれだけ精度が上がるのか疑問。
多分、コストが問題だったのでしょう。
でも今はSequel使えばコスト的にもだいぶ割安感があると思うんですけどね。
さてさて、ここからはIso-Seqの話です。
SMRT Link(PacBio解析ソフトウェア)バージョン5.1には、Iso-SeqとIso-Seq2が搭載されています。
へぇ、Iso-Seq2とは?
その前にIso-Seq解析のおさらいです。
実験のプロトコルはこちらからダウンロードできる。簡単に言うと、
ここから先は、SMRT Link 5.1で解析すると仮定しますね。
Iso-Seq解析は最初にCCSを作ります。
5'プライマー、インサート配列、ポリA配列、3'プライマーを持つ場合、完全長cDNAとみなされます。完全長=Full Length(FL)と不完全長=Non-FLのリードに分ける。
このステップがClassify
次のステップがClustering
アイソフォームレベルのクラスタリングを行うにはFLのCCSだけが使われる。
このクラスタリングステップがとても時間がかかり、今まで問題になっていた。
Iso-Seq1では配列の長さが同じくらいのものをまとめ、クラスタリングを行っている。
Iso-Seq2では塩基配列のパターンから同じようなものをまとめ、クラスタリングを行っている。
いずれにしても、転写産物を網羅的に見る場合は、Iso-Seq2の方が良い。
一方、ターゲットIso-Seqの場合は、どのアイソフォームも同じような配列パターンを持つので、サイズによってクラスタリングする普通のIso-Seqの方が良い。
最後に、リファレンスがある場合はGMAPでゲノム配列にマップして、Alternative Splicingを見る。ここはヒトとかマウスとかのモデル生物で行われる。
アイソフォームを見つけたらその精査が必要だ。
SQANTIというツールは見つけたアイソフォーム配列を、機能ごとにアノテーション付けてくれる。
FSM = full splice match (perfect match w/ known isoform)
ISM = incomplete splice match (partial match)
NIC = novel in catalog (novel isoform with known junctions)
NNC = novel not in catalog (novel isoform with new junctions)
というように。
論文にもなっているのでこちらもどうぞ
そのほかにもありますが今日のところはこれにて
PacBioのロングリードで完全長cDNAを一気に読んで、スプライシングバリアントを含めたRNAの構造解析をする方法です。
ショートリードでデノボで転写産物をシークエンス&アセンブリする方法には、Trinityという有名なものがあります。
しかしリピート配列があると正確に転写産物を再現できない、K-merサイズによってはアセンブリが不正確になる、など、ショートリードだけの完全長cDNAシークエンスには限界がありました。
IDP-denovo |
この論文はあくまでも、ショートリードがメインで、これを補佐する役割としてPacBioのロングリードが登場します。
正直、私はPacBio一本でやった方が良い気がしたのですが、、、。
だって最初のショートリードのアセンブルで、既に、読める配列がイルミナ技術に依存しているでしょう?
それからPacBioで一分子配列を付け足して補正、ってどれだけ精度が上がるのか疑問。
多分、コストが問題だったのでしょう。
でも今はSequel使えばコスト的にもだいぶ割安感があると思うんですけどね。
さてさて、ここからはIso-Seqの話です。
SMRT Link(PacBio解析ソフトウェア)バージョン5.1には、Iso-SeqとIso-Seq2が搭載されています。
へぇ、Iso-Seq2とは?
その前にIso-Seq解析のおさらいです。
実験のプロトコルはこちらからダウンロードできる。簡単に言うと、
- サンプルの中で発現しているmRNAの、完全長cDNAを作る
- 完全長cDNAをPCRで十分量増やす
- SMRT Bellライブラリを作る(SequelではIso-Seqのサイズ分割は基本行わない。長い転写産物に注目したい場合は4kbを境に分割しても良い)
- Sequelで読む→ データが出てくる
ここから先は、SMRT Link 5.1で解析すると仮定しますね。
Iso-Seq解析は最初にCCSを作ります。
5'プライマー、インサート配列、ポリA配列、3'プライマーを持つ場合、完全長cDNAとみなされます。完全長=Full Length(FL)と不完全長=Non-FLのリードに分ける。
このステップがClassify
次のステップがClustering
アイソフォームレベルのクラスタリングを行うにはFLのCCSだけが使われる。
このクラスタリングステップがとても時間がかかり、今まで問題になっていた。
Iso-Seq1では配列の長さが同じくらいのものをまとめ、クラスタリングを行っている。
Iso-Seq2では塩基配列のパターンから同じようなものをまとめ、クラスタリングを行っている。
2の方が1より2倍ほど計算速度が速いとのこと。
さて、クラスタリングしてアイソフォーム配列が出来たら、これにFLとNon-FLのサブリードをアラインし、ArrowまたはQuiverで配列精度を高める。いずれにしても、転写産物を網羅的に見る場合は、Iso-Seq2の方が良い。
一方、ターゲットIso-Seqの場合は、どのアイソフォームも同じような配列パターンを持つので、サイズによってクラスタリングする普通のIso-Seqの方が良い。
最後に、リファレンスがある場合はGMAPでゲノム配列にマップして、Alternative Splicingを見る。ここはヒトとかマウスとかのモデル生物で行われる。
アイソフォームを見つけたらその精査が必要だ。
SQANTIというツールは見つけたアイソフォーム配列を、機能ごとにアノテーション付けてくれる。
FSM = full splice match (perfect match w/ known isoform)
ISM = incomplete splice match (partial match)
NIC = novel in catalog (novel isoform with known junctions)
NNC = novel not in catalog (novel isoform with new junctions)
というように。
論文にもなっているのでこちらもどうぞ
そのほかにもありますが今日のところはこれにて
5月18日(金)は秋葉原にて「PacBio現場の会 2018」
登録はこちらから!
2018年4月9日月曜日
ロングリード解析やっているひとはこの論文を絶対読まないと!
NGS解析をやっているひと、特にロングリード解析をやっているひとは絶対読まなければいけない論文、それがこれ
Piercing the dark matter: bioinformatics of long-range sequencing and mapping
Sedlazeck et al., (2018)Nature Reviews Genetics.
ロングレンジ技術を使ったゲノム解析に関する、すごくComprehensiveにまとめられた、バイオインフォマティクスのレビューです。
これはほんと超おすすめ。
このレビューはいくつかのパートに分かれてまして、
1.ロングリードテクノロジーのまとめ
ここでいうロングレンジ技術とは、Pacific Biosciences (PacBio)や Oxford Nanopore Technologies (ONT)のように、「本当の」ロングリードと、10X Genoimics のリンクドリード、BioNanoのフィジカルマッピング、Hi-Cのような超ロングレンジメイトぺア、を含みます。
それぞれの技術の特徴(ロングリードのエラー率の高さなど)がまとめられています。
Bamファイルの今のフォーマットが、ロングリードマッピングデータにはもはや向いていない、という点は前から言われていましたね
2.De Novo Assemblyへの挑戦
Piercing the dark matter: bioinformatics of long-range sequencing and mapping
Sedlazeck et al., (2018)Nature Reviews Genetics.
ロングレンジ技術を使ったゲノム解析に関する、すごくComprehensiveにまとめられた、バイオインフォマティクスのレビューです。
これはほんと超おすすめ。
このレビューはいくつかのパートに分かれてまして、
1.ロングリードテクノロジーのまとめ
ここでいうロングレンジ技術とは、Pacific Biosciences (PacBio)や Oxford Nanopore Technologies (ONT)のように、「本当の」ロングリードと、10X Genoimics のリンクドリード、BioNanoのフィジカルマッピング、Hi-Cのような超ロングレンジメイトぺア、を含みます。
それぞれの技術の特徴(ロングリードのエラー率の高さなど)がまとめられています。
Bamファイルの今のフォーマットが、ロングリードマッピングデータにはもはや向いていない、という点は前から言われていましたね
2.De Novo Assemblyへの挑戦
- ゲノムに存在するリピート配列の存在が、ショートリードでのゲノムアセンブリを難しくしている
- ロングリードが30カバレッジ未満しか無いときは、ショートリードとのハイブリッドを使うべきだろう
- しかしショートリードでのロングリードエラー補正(PBcR, Nanocorr, Spades and MaSuRCA,)は、GCバイアスなどの問題でロングリードを正しくエラー補正できない可能性がある
- ロングリード同士のSelf Correction (HGAP, PBcR, Canu, MARVEL or FALCON)が、もっとも良い
- 倍数性の高いゲノムのアセンブルは今も、難しい (NRGeneという会社は倍数体があっても独自の秘密プログラムで行っているそうですが仕組みは非公開です)
- コンティグを作った後のポリッシングには、QuiverやArrow(PacBio用)、Nonopolish(ONT用)、Pilon(ショートリードをポリッシングに使用)などがある
3.スキャフォルディングとギャップフィリング
- スキャフォルディングには、10XやHi-Cなどが有効
- しかしアセンブルの時点で高精度のコンティグを作ることが何より重要
4.SV解析
- まずはSVの定義をはっきりさせている(挿入とか欠損とか、転移とか)
- SV検出精度はマッピングの精度に依存する(BLASR, BWA-MEM, minimap/minimap2, LASTなどについても言及)
- コスト、倍数体、リファレンス配列の精度、などがSV解析の大きな問題点
そのほか、ここには書ききれないほどのトピックスがたくさんあって、とにかく、一度読んでみてくださいと言うしかない!
バイオインフォマティクスのレビューなので、アセンブルからSVコール、RNAシークエンスまで、巷にあふれるたくさんのツールの解説があります。
もちろんこのレビューは、決してPacBio贔屓ではありません。
ロングリードはPacBioとONTがありますが、むしろ、最長ロングリードはONTに軍配が上がっている。
PacBioは、エラーのランダム性から、コンセンサス配列の精度は最も高いロングリードと言える。
どうやってもロングリードの場合、PacBioもONTもリード長には限界があり、結果、10XとかHi-Cとか、ショートリードによる擬似的な超ロングリードとの組み合わせがアセンブル結果や構造解析、フェージング解析の結果を大きく改善することは間違いない。
今の時代、複数のテクノロジーを、最適なバイオインフォマティクスツールをうまく使いこなして解析することが重要なんだなと、改めて実感するレビュー論文でした。
--------- 5/18(金)は秋葉原へ集合!------------
「PacBio 現場の会 2018」
登録はこちらから
5名の招待演者と
PacBio、Dovetail、その他最新NGS情報を
一度に聞ける年に一度のイベントです!
情報交換会もあります。
参加無料、PacBioに興味のある研究者なら誰でも参加OK!
2018年4月4日水曜日
PacBio現場の会 2018 登録スタート!
5月18日は、年に一度の現場の会、といっても「PacBio現場の会」です。
今年はもうNGS現場の会が無いので、復活しました、この名前!
場所は秋葉原UDX Next1
ロングリードを愛する全てのひとへ心を込めて
あえてロングリードとしたのは、今やPacBio以外でもOxford Nanoporeのシークエンサーで読んでいる研究者も多いだろうと思うからです。
もしあなたが、MinIONデータで何かを読んでいるとしても、私たちは拒みません。
PacBioがいまだにロングリード市場でメジャーなシークエンサーだということは、紛れもない事実なのですから。
前置きが長くなりましたが、登録サイトがスタートしたのでこちらからどうぞ!
英語名がPacBio User Group Meetingとなっているのは各国で統一感を出すための便宜的な名前なのでユーザーでなくとも参加できますよ
顔写真入りの紹介って、案外良いですねぇ
最新のプログラム、時間割りは「最新プログラムはこちらから」のリンクからダウンロードできます。
まだ変更が入るかもしれませんがご了承下さい。
5月18日ですよー
アキバですよー
時間は1時から開始で、情報交換会もあります
結構びっちり、勉強になると思います
奮ってご参加下さい ここから
今年はもうNGS現場の会が無いので、復活しました、この名前!
場所は秋葉原UDX Next1
ロングリードを愛する全てのひとへ心を込めて
あえてロングリードとしたのは、今やPacBio以外でもOxford Nanoporeのシークエンサーで読んでいる研究者も多いだろうと思うからです。
もしあなたが、MinIONデータで何かを読んでいるとしても、私たちは拒みません。
PacBioがいまだにロングリード市場でメジャーなシークエンサーだということは、紛れもない事実なのですから。
前置きが長くなりましたが、登録サイトがスタートしたのでこちらからどうぞ!
英語名がPacBio User Group Meetingとなっているのは各国で統一感を出すための便宜的な名前なのでユーザーでなくとも参加できますよ
顔写真入りの紹介って、案外良いですねぇ
最新のプログラム、時間割りは「最新プログラムはこちらから」のリンクからダウンロードできます。
まだ変更が入るかもしれませんがご了承下さい。
5月18日ですよー
アキバですよー
時間は1時から開始で、情報交換会もあります
結構びっちり、勉強になると思います
奮ってご参加下さい ここから
2018年3月31日土曜日
CCSは精度では全てのNGSに勝る。コストではサンガーに勝る。カナダの生物種同定プロジェクトの例
これは私がずーーーっと前にこのブログで説明したCCS(Circular Consensus Sequence)についての絵です。
一時期、CCSのことをROI(Reads Of Insert)と呼んでいたこともありましたが、わかりにくいということでCCSの呼び名が復活しました。
今のSequelでは、1セルあたり100万のZMWから30万本~60万本のリードが出てきます。
平均10kbのリード長とすると(実際は平均12kbのときもあればそれ以上のときもありますが、少な目に見積もって10kbとした)、15万本~30万本のリードは10kb以上読めていることになる。
例えば1kbのライブラリを作りランするとしたら、10回以上同じインサートDNAを繰り返し読んで作られたCCSが、15万~30万本作られることになりますね。
10回以上繰り返し同じDNAを読めば、かなり精度が高いCCSが作られます。
実際の解析ではもちろんパス数でフィルタリングするよりも、QVでフィルタリングした方が良いでしょう。
ミトコンドリア配列中にあるシトクロムCオキシダーゼI(COI)遺伝子の配列は、さまざまな生物で配列に違いがある。
GC含量が15%~45%とバリエーションが広く、サンガー法ではホモポリマーなどが原因で読みにくい。
この配列を読むことで生物種多様性を研究しているひとたちがいる。
International Barcode Of Life という国際プロジェクトがある。
Dr. Paul Hebert, Director of the Biodiversity Institute at Guelph, Canadaは、今までサンガー法で行っていたCOI配列のDNAフィンガープリントを、Sequelでバーコードを使って読み、大幅なコストダウンを実現したという。
Hebert博士のプレゼンの様子はこちらから録画が見れます。
Dr. Hebertのプレゼンから |
100種類のバーコード配列をアシンメトリーにヘアピンアダプターに付けるので、100x100種類で合計10,000種類の識別が可能になる。
実験の詳しい内容はここの論文に書かれています。
サンガー法と比べても、コストと手間の面でSequelが圧倒的に優れています
精度もサンガー法と引けをとりません。
もっとも、一度に10,000サンプルとか言われると、DNA検体を集める方が大変かもしれませんが。
Hebert博士らの論文(2018) |
MiSeqを使った250bpメイトペアシークエンスでも届かないでしょう
同じロングリードのオックスフォード・ナノポアはどうか?
残念ながらCCSのように同じライブラリを何度も読むことはできないので、サンガー法のような精度を達成することはできないでしょう。
ということでSequel(もちろんRSIIも)は、PCRアンプリコンをたくさん一度に精度を高く読むことのできる唯一のNGSと言えるでしょう!
2018年3月30日金曜日
学会2連ちゃんした結果頭の切り替えが大変だった件
今週は日曜月曜が日本育種学会、火曜水曜が日本細菌学会。
両方とも福岡での開催で連続していたので2連ちゃんをしたわけです。
両方とも福岡での開催で連続していたので2連ちゃんをしたわけです。
これは細菌学会での私たちのブース
お隣さんは、ショートリードのI社ですよ。反対のお隣さんはひとつおいてロングリードのO社ですよ。さすがAEさん!
まあ、NGS業界はみんな仲良いから変な空気にはなりませんけどね。
まあ、NGS業界はみんな仲良いから変な空気にはなりませんけどね。
どちらも登録して中のセッションも聞きに行きました。
育種学会はもちろん植物の学会なので、遺伝マーカー、連鎖解析、植物の各組織の名前、収量、環境ストレス、というキーワードが頻繁に聞かれます。
一方細菌学会は、抗菌薬、選択圧、病原性、病気の名前、サーベイランス、プラズミド、というキーワードを良く耳にしました。
というわけで、あたりまえですが参加者の研究分野が全然違うのです。恐らくお互い接点は無いのでは。
なので2連ちゃんすると異業種交流会に来たような錯覚。
以下、私見ですが・・・
ゲノム解析の重要性について
育種学の分野では、イネなどの主要穀物は、国際プロジェクトなどである程度ゲノムが読まれている。しかし今は品種ごとにゲノムを決定する必要がある。コムギなどはゲノムサイズが大きく、また倍数性も高いため、完全ゲノムを決定するのは極めて困難。遺伝マーカーを決めるためにRAD-Seqなど様々な方法を試している。野菜や果物などもゲノム解析のニーズは高いが、植物はリピートなどが極めて多いので、完全なゲノム配列を求めるというよりも、選別のための遺伝マーカ―さえわかればOKという感じ。
細菌学の分野では、バクテリアはゲノムサイズが小さいので完全長ゲノムを決定することは十分可能。とはいっても、染色体中に数十Kbの同じ配列が逆向きに挿入されるような場合もあるらしく、そういう場合はもちろんPacBioなどロングリードが必要だし、それを使っても完全長決定が大変な場合もある。バクテリアゲノムは遺伝子が密な分、完全に塩基配列を決定する重要性が感じられた。
薬剤耐性、特にカルバぺネム耐性菌の場合、耐性遺伝子がプラズミドに乗っている場合があるらしいです。その場合はプラズミド配列を読むことが一層大切。
学会の参加者と話して感じたこと
育種学会には、全国の農業試験場、農研機構、国立研究機関、大学農学部、種苗メーカー、食品メーカー、酒造メーカー、などから研究者が集まります。
私が感じたのは、この業界は産学の繋がりが強いということ。
中にはいろいろ大人の事情もあるのでしょうが、外から見た感じは「みんなすごく仲が良い!」
より良い農作物を作ろう、という目的はみな同じ。横のつながりが強いのでしょうかね。
あと良かったのは、育種学会のポスター発表では必ず毎回、地元の高校生も発表するんですね。こういうのは素敵です。
懇親会はいつも、地元の食材を使った料理やお酒がふるまわれます。秋の大会(育種学会は年二回)のほうがお酒の量凄い、気が。
細菌学会は、国立国際医療研究センター、国立感染症研究所などの研究機関、大学医学部の微生物や細菌学の教室、全国の総合病院などから研究者が集まります。
細菌学は産業と言うより、公衆衛生学の観点からいかに感染拡大を防ぐか、どうやって細菌からの感染を予防するか、の議論が多いように感じました。
生死に直結している分、緊迫感が感じられる学会かな。
こちらは懇親会は無し。ポスターのミキサーでは軽食がありました。
ポスターはこちらもすごい活気がありましたよ。部屋の温度が5度くらい上がっていたかもね。
育種学会と細菌学会はそんなわけで連続していたのですが、全然客層も違う学会なので頭の切り替えが難しかった。
でもどちらも今回はブース出したかいはありました。
出展料の数十倍のリターンはあったかも。
PacBio系の話は次にします
~~~さて連絡事項です~~~
今年もやります、PacBio現場の会!
2018年5月18日(金)
午後1時から5時過ぎまで 懇親会もあります
場所は東京・秋葉原のUDX Next1
演者の方も決まりました。4月になりましたらお知らせします!
バクテリアから植物ゲノム、がんゲノムなど幅広い分野から5名のお客様の講演
PacBioのアプリケーション、アップデート、Dovetail Genomicsの紹介などなど、盛りだくさんな半日セミナーになる予定です!
是非まずは日付をチェック!〇付けてほかに予定入れないでおいてくださいね!
4月になったら、NGS現場の会メーリスや、このブログや、PacBioからのメール、トミーデジタルバイオロジーからのメールなどで、登録サイトなどをお知らせします。
乞うご期待
薬剤耐性、特にカルバぺネム耐性菌の場合、耐性遺伝子がプラズミドに乗っている場合があるらしいです。その場合はプラズミド配列を読むことが一層大切。
学会の参加者と話して感じたこと
育種学会には、全国の農業試験場、農研機構、国立研究機関、大学農学部、種苗メーカー、食品メーカー、酒造メーカー、などから研究者が集まります。
私が感じたのは、この業界は産学の繋がりが強いということ。
中にはいろいろ大人の事情もあるのでしょうが、外から見た感じは「みんなすごく仲が良い!」
より良い農作物を作ろう、という目的はみな同じ。横のつながりが強いのでしょうかね。
あと良かったのは、育種学会のポスター発表では必ず毎回、地元の高校生も発表するんですね。こういうのは素敵です。
懇親会はいつも、地元の食材を使った料理やお酒がふるまわれます。秋の大会(育種学会は年二回)のほうがお酒の量凄い、気が。
細菌学会は、国立国際医療研究センター、国立感染症研究所などの研究機関、大学医学部の微生物や細菌学の教室、全国の総合病院などから研究者が集まります。
細菌学は産業と言うより、公衆衛生学の観点からいかに感染拡大を防ぐか、どうやって細菌からの感染を予防するか、の議論が多いように感じました。
生死に直結している分、緊迫感が感じられる学会かな。
こちらは懇親会は無し。ポスターのミキサーでは軽食がありました。
ポスターはこちらもすごい活気がありましたよ。部屋の温度が5度くらい上がっていたかもね。
育種学会と細菌学会はそんなわけで連続していたのですが、全然客層も違う学会なので頭の切り替えが難しかった。
でもどちらも今回はブース出したかいはありました。
出展料の数十倍のリターンはあったかも。
~~~さて連絡事項です~~~
今年もやります、PacBio現場の会!
2018年5月18日(金)
午後1時から5時過ぎまで 懇親会もあります
場所は東京・秋葉原のUDX Next1
演者の方も決まりました。4月になりましたらお知らせします!
バクテリアから植物ゲノム、がんゲノムなど幅広い分野から5名のお客様の講演
PacBioのアプリケーション、アップデート、Dovetail Genomicsの紹介などなど、盛りだくさんな半日セミナーになる予定です!
是非まずは日付をチェック!〇付けてほかに予定入れないでおいてくださいね!
4月になったら、NGS現場の会メーリスや、このブログや、PacBioからのメール、トミーデジタルバイオロジーからのメールなどで、登録サイトなどをお知らせします。
乞うご期待
2018年3月25日日曜日
ファインディング・ニモ
育種学会に来ています。このブース、雑多に見えるかもしれませんが、それは後ろのブースが見えているからですかねー。実際に見ると意外とすっきりしていますよ。
値段を入れたせいか、たくさんのお客さんが足を止めてくれました。
私たちの目の前の企業さんが、ブースに「人工気象器」というものを展示しているのですが、「人工太陽」をデモするたびに、眩しっ!
目の前が眩むっす。 これも育種学会あるある?
さて、学会とは直接関係ありませんが、ファインディング・ニモでおなじみのカクレクマノミのゲノムが読まれました。
Finding Nemo’s Genes: A chromosome-scale reference 1 assembly of the genome of the orange clownfish Amphiprion percula
https://www.biorxiv.org/content/early/2018/03/08/278267
サウジアラビアとオーストラリアのチームですね。日本人のかたも著者に入っていますね。
彼らは20kbライブラリをPacBio RSIIで6時間、113セル読み、113.8Gb(121カバレッジ)のロングリードを得ました。
Falconアセンブリで最初にエラー補正された58カバレッジのp-readをアセンブリに使い、最終的に1,414本のPolish済みコンティグ(N50=1.86Mb)を得たそうです。
その後はもちろんHi-Cでのスキャフォルド。アセンブリ結果の98%の配列は24本の染色体の中に納まったそうです。
最終アセンブリ配列は908.8Mbで、コンティグN50は3.12Mb、スキャフォルドN50は38.4Mbとのこと。
PacBioとHi-Cの組み合わせはここでも活きていました
魚類の中では、最も長い連続配列を取得したアセンブリ結果のひとつだそうです。
さて、最近論文発表された同属のアセンブリ(NanoporeとIllumina、IlluminaとPacBio)と比較して表をPacBioのマーケが作ってくれたので見てみましょうか。
PacBioのみでアセンブルしたA.percula が最も長いコンティグ/スキャフォルドN50を達成していることがわかるでしょう。
値段を入れたせいか、たくさんのお客さんが足を止めてくれました。
私たちの目の前の企業さんが、ブースに「人工気象器」というものを展示しているのですが、「人工太陽」をデモするたびに、眩しっ!
目の前が眩むっす。 これも育種学会あるある?
さて、学会とは直接関係ありませんが、ファインディング・ニモでおなじみのカクレクマノミのゲノムが読まれました。
Finding Nemo’s Genes: A chromosome-scale reference 1 assembly of the genome of the orange clownfish Amphiprion percula
https://www.biorxiv.org/content/early/2018/03/08/278267
サウジアラビアとオーストラリアのチームですね。日本人のかたも著者に入っていますね。
彼らは20kbライブラリをPacBio RSIIで6時間、113セル読み、113.8Gb(121カバレッジ)のロングリードを得ました。
Falconアセンブリで最初にエラー補正された58カバレッジのp-readをアセンブリに使い、最終的に1,414本のPolish済みコンティグ(N50=1.86Mb)を得たそうです。
その後はもちろんHi-Cでのスキャフォルド。アセンブリ結果の98%の配列は24本の染色体の中に納まったそうです。
最終アセンブリ配列は908.8Mbで、コンティグN50は3.12Mb、スキャフォルドN50は38.4Mbとのこと。
PacBioとHi-Cの組み合わせはここでも活きていました
魚類の中では、最も長い連続配列を取得したアセンブリ結果のひとつだそうです。
さて、最近論文発表された同属のアセンブリ(NanoporeとIllumina、IlluminaとPacBio)と比較して表をPacBioのマーケが作ってくれたので見てみましょうか。
PacBioのみでアセンブルしたA.percula が最も長いコンティグ/スキャフォルドN50を達成していることがわかるでしょう。
2018年3月20日火曜日
PacBio Sequel v.5.1 ~もうバージョン5.1になってました、、、
装置やソフトウェア、試薬のバージョンアップは、この業界では頻繁にあることです。
今のSequelでは、装置ソフトウェアと解析ソフトウェアが同じバージョンでそろっていて、試薬やケミストリーが別のバージョン番号で管理しているのです。
ちょっとややこしいですが、試薬・ケミストリーが v.2.1で、ソフトウェアが v.5.0 という感じだったんですね。
解析ソフトウェアSMRT Link(SMRT Analysisを含む)のバージョンが、装置ソフトウェアと同じバージョンです。
そこで今回、新たなバージョンアップ!
ソフトウェアが v.5.1になり、ケミストリーが 2.1 version 2 に!
ん? v.2.1 のさらに v.2 って・・・ と思う方もいるでしょうが、そこは気にしないでください。
装置&ソフトウェアの v.5.1と、試薬 v.2.1(v2)を使った場合のスループットがこちら。
そう、v.5.1から、10時間ムービーと20時間ムービーが選べます。
20時間で読む場合は、LRという別のSMRT Cellを使う必要があります。
(因みにスタンダードのセルよりもLRセルの方が若干高価)
どう使い分けるのか?ですが、今のところ、
5kbアンプリコンライブラリの場合、20時間で読んだとき
アプリケーションごとのSequel v5.1パフォーマンス(1 SMRT Cell あたりの出力)は以下のようになっています(v5.1 Software Upgrade and Performance Overview - Customer Training より引用)
Whole Genome Sequencing for De Novo Assembly
-Up to 10 Gb:サイズセレクション済の 40kb以上のロングライブラリの場合
-Up to ~7-10 Gb:サイズセレクション済の 15-40 kbロングライブラリの場合
Iso-Seq 完全長 cDNAシークエンス
-Up to 20 Gb
-Up to 250,000-350,000本の full-length non-chimeric (FLNC) reads
Targeted Sequencing (アンプリコンシークエンス)
-Up to 20 Gb
-Up to 300,000 CCS reads:2.5 kb アンプリコンの場合
-Up to 200,000 CCS reads:5 kb アンプリコンの場合
-P1リードのうち 40% 以上は QV 30 のCCSを作成可能:5 kb アンプリコンの場合
Structural Variation Calling (構造変異解析)
-Up to ~7.5 Gb: サイズセレクション済の 15kb ロングライブラリの場合
「Up to」と書かれていますね。これは、そういう意味です。
必ず出る保証はないけれども、うまくいけばこのくらいの塩基は読めるという。
と書いていて自分で言うのも何ですが、数字ばかり並べてもあまり説得力がないと思います。
それぞれ、研究にどれだけ使えるのかを具体的に示せなければ意味が無い。
これについては次に書く予定です。
お知らせ:
3/25-26 日本育種学会総会
3/27-28 日本細菌学会総会
にそれぞれ出展します。どちらも福岡での開催です!
今のSequelでは、装置ソフトウェアと解析ソフトウェアが同じバージョンでそろっていて、試薬やケミストリーが別のバージョン番号で管理しているのです。
ちょっとややこしいですが、試薬・ケミストリーが v.2.1で、ソフトウェアが v.5.0 という感じだったんですね。
解析ソフトウェアSMRT Link(SMRT Analysisを含む)のバージョンが、装置ソフトウェアと同じバージョンです。
そこで今回、新たなバージョンアップ!
ソフトウェアが v.5.1になり、ケミストリーが 2.1 version 2 に!
ん? v.2.1 のさらに v.2 って・・・ と思う方もいるでしょうが、そこは気にしないでください。
装置&ソフトウェアの v.5.1と、試薬 v.2.1(v2)を使った場合のスループットがこちら。
ロングライブラリ(35kb)を10時間読んだとき |
ショートライブラリ、5kbアンプリコンを20時間で読んだとき |
そう、v.5.1から、10時間ムービーと20時間ムービーが選べます。
20時間で読む場合は、LRという別のSMRT Cellを使う必要があります。
(因みにスタンダードのセルよりもLRセルの方が若干高価)
どう使い分けるのか?ですが、今のところ、
- ゲノムアセンブリのような長いインサートライブラリは10時間
- PCRアンプリコンやIso-Seqのような短いライブラリは20時間
をお勧めしています。将来的には変わるかもしれませんが、今はこのように、長いライブラリは今まで通りの10時間で読み、短いライブラリは、もちろん10時間でも良いけれど20時間で読むこともお勧め、ということです。
もちろん、20時間で読んだ方がロングライブラリでも長く読めるのでは?という疑問が出てくると思いますが、今のところ、ロングライブラリを20時間で読んでも、10時間で読んだときと平均リード長はほぼ同じ(最長リードは長いが)。というデータが出ています。
LRセルの方が高価だということを考えると、10時間でも費用対効果は良い。
ところが短いライブラリで、主にCCSを作ることを目的としたシークエンスでは、20時間は生きてくるのです。
先のデータによると、
もちろん、20時間で読んだ方がロングライブラリでも長く読めるのでは?という疑問が出てくると思いますが、今のところ、ロングライブラリを20時間で読んでも、10時間で読んだときと平均リード長はほぼ同じ(最長リードは長いが)。というデータが出ています。
LRセルの方が高価だということを考えると、10時間でも費用対効果は良い。
ところが短いライブラリで、主にCCSを作ることを目的としたシークエンスでは、20時間は生きてくるのです。
先のデータによると、
35kbライブラリの場合、10時間で読んだとき
- データの半分以上は、30kb以上の長さのリード(ポリメラーゼリードとサブリードはほぼ同じ長さとみて良い)
- 最長リードは90kb超え
- 1セルあたりの出力塩基数は 10Gb
- 出力リード数は40万
5kbアンプリコンライブラリの場合、20時間で読んだとき
- データの半分以上は、70kb以上の長さのリード(アンプリコンサイズが5kbだから何度もインサートを繰り返し読むことのできるポリメラーゼリード、が多く出力される)
- 最長ポリメラーゼリードは180kb超え
- 1セルあたりの出力塩基数は20Gb
- 出力リード数(この場合出力CCS数と言っても良い)は40万
アプリケーションごとのSequel v5.1パフォーマンス(1 SMRT Cell あたりの出力)は以下のようになっています(v5.1 Software Upgrade and Performance Overview - Customer Training より引用)
Whole Genome Sequencing for De Novo Assembly
-Up to 10 Gb:サイズセレクション済の 40kb以上のロングライブラリの場合
-Up to ~7-10 Gb:サイズセレクション済の 15-40 kbロングライブラリの場合
Iso-Seq 完全長 cDNAシークエンス
-Up to 20 Gb
-Up to 250,000-350,000本の full-length non-chimeric (FLNC) reads
Targeted Sequencing (アンプリコンシークエンス)
-Up to 20 Gb
-Up to 300,000 CCS reads:2.5 kb アンプリコンの場合
-Up to 200,000 CCS reads:5 kb アンプリコンの場合
-P1リードのうち 40% 以上は QV 30 のCCSを作成可能:5 kb アンプリコンの場合
Structural Variation Calling (構造変異解析)
-Up to ~7.5 Gb: サイズセレクション済の 15kb ロングライブラリの場合
「Up to」と書かれていますね。これは、そういう意味です。
必ず出る保証はないけれども、うまくいけばこのくらいの塩基は読めるという。
と書いていて自分で言うのも何ですが、数字ばかり並べてもあまり説得力がないと思います。
それぞれ、研究にどれだけ使えるのかを具体的に示せなければ意味が無い。
これについては次に書く予定です。
お知らせ:
3/25-26 日本育種学会総会
3/27-28 日本細菌学会総会
にそれぞれ出展します。どちらも福岡での開催です!
2018年3月16日金曜日
Human Genome Meeting 2018 @パシフィコ横浜 終了!
あー、終わった終わった。
いつも学会展示会の後はそう思います。
立ちっぱなしも結構疲れるんですよ。
今週はHuman Genome Meetingという国際学会に出展していました。
RIKEN&Hugoが主催で開いたこのミーティングには、およそ400人の国内外のヒトゲノム研究者が集まったそうです(最終参加人数はまだ聞いていませんが、およそそれくらいの人数かと)
どうですか? このすばらしいブースデザイン!
サイズ感がわからない?
バックの絵は高さが2mちょい、横幅は4mくらいあるんですよ。
他にもたくさん企業が出展していまして、ロングリードのもうひとつの会社も、ショートリードの会社ももちろん。
シークエンス受託会社も、タカラバイオさんをはじめ、マクロジェンさん、Novogeneさん、DNA Linkさん、BGIさんも出展。
BGI シークエンサーも、展示してありました。100bpまたは200bpのペアエンドで読めるらしいです。
イルミナさんの iSeq は、斬新なデザインでしたね。白いカクカクっとした立方体。
半導体のチップは、どこかの会社のアレにそっくりでした。
さすがに写真は撮らなかったですけど。
さてさて、私たちPacBioは、初日にスポンサーセッションとランチョンセミナーをやりました。
スポンサーセッションでは、東京大学大学院医学系研究科 ゲノム医学講座の河津正人先生に、「Genetic status of immune microenvironment in microsatellite instability-high colorectal cancers」という題名でお話し頂きました。
ランチョンセミナーでは、前半をPacBioのCSO、Jonas Korlachが「Accessing the full size-spectrum of human genetic variation using PacBio long-read SMRT sequencing on the Sequel System」
後半をHouston Methodist Research Instituteの芦澤哲夫先生に「Internal sequences of large pentanucleotide repeat expansion alleles in SCA10」というタイトルでお話し頂きました。
いつも学会展示会の後はそう思います。
立ちっぱなしも結構疲れるんですよ。
今週はHuman Genome Meetingという国際学会に出展していました。
RIKEN&Hugoが主催で開いたこのミーティングには、およそ400人の国内外のヒトゲノム研究者が集まったそうです(最終参加人数はまだ聞いていませんが、およそそれくらいの人数かと)
どうですか? このすばらしいブースデザイン!
サイズ感がわからない?
バックの絵は高さが2mちょい、横幅は4mくらいあるんですよ。
他にもたくさん企業が出展していまして、ロングリードのもうひとつの会社も、ショートリードの会社ももちろん。
シークエンス受託会社も、タカラバイオさんをはじめ、マクロジェンさん、Novogeneさん、DNA Linkさん、BGIさんも出展。
BGI シークエンサーも、展示してありました。100bpまたは200bpのペアエンドで読めるらしいです。
イルミナさんの iSeq は、斬新なデザインでしたね。白いカクカクっとした立方体。
半導体のチップは、どこかの会社のアレにそっくりでした。
さすがに写真は撮らなかったですけど。
さてさて、私たちPacBioは、初日にスポンサーセッションとランチョンセミナーをやりました。
スポンサーセッションでは、東京大学大学院医学系研究科 ゲノム医学講座の河津正人先生に、「Genetic status of immune microenvironment in microsatellite instability-high colorectal cancers」という題名でお話し頂きました。
ランチョンセミナーでは、前半をPacBioのCSO、Jonas Korlachが「Accessing the full size-spectrum of human genetic variation using PacBio long-read SMRT sequencing on the Sequel System」
後半をHouston Methodist Research Instituteの芦澤哲夫先生に「Internal sequences of large pentanucleotide repeat expansion alleles in SCA10」というタイトルでお話し頂きました。
Jonasの講演 |
芦澤先生の講演 |
翌日、私たちはアジア時間に合わせてウェビナーを行いました。
芦澤先生には、こちらのウェビナーでもお話し頂き、たくさんの参加者が参加されました。
当日参加できなかったかへ朗報。
ここからビデオ録画が視聴できます。
精神疾患とその原因のひとつと考えられている、繰り返し配列のシークエンス。
Cas9を応用したPacBioのEnrichment技術。
PacBioはまさに、メディカルに応用できるロングリード技術である、ということが実感できると思います。
是非ご覧ください。
登録:
投稿 (Atom)