2018年6月15日金曜日

Assembling high-quality human reference genomes for global populations

梅雨ですね。雨の季節。
水不足にならないためにも雨は大事、とわかっているけど、雨の日はテンションが上がらない。
と思っていたら、沖縄で考えが変わりました!
梅雨と言えばシトシト降るイメージだったのですが、沖縄の梅雨はザーザー! 
嵐でした。

さて人種ごとにヒトゲノムを決めるプロジェクトが、世界中で行われているのはご存じかもしれません。
最近だと、スウェーデン人の男女のゲノムが話題になりました。

ヒトゲノムを読むということと、決めるということの間には大きなギャップがあります。
読むのはPacBioをはじめ、ONTやIlluminaショートリード、さらにBioNanoや10X Genomics、Hi-CやChicagoなどたくさんの技術がありますので、お金がある限りランしてヒトゲノムのピースのデータはたくさん得ることができます。

しかしそこからヒトゲノム配列を正しく決める、というのは大変な作業です。
なかなかその「決め方」について、「プロセス」について、の発表を聞く機会は少ないと思いますが、良いウェビナーがありますのでお知らせします。


Assembling high-quality human reference genomes for global populations

1時間ほどの長いウェビナーですが、2人目のスピーカーはスウェーデンゲノムのひとです。以下そのウェビナーからのスクリーンショット。
PacBioとBioNanoのデータをハイブリッドアセンブリしているのがキーです。

3人目のスピーカーは我らがPacBioのPaulさん!
何度も日本に来ている日本食大好きのイタリア系カリフォルニア人です。
彼はPacBio設立時からの早期メンバーの一人で、PacBioシークエンスについては何でも知っています。
実験の話も出てきますのでこれも面白いですよ。



2018年6月8日金曜日

Dovetail Genomicsの最近の論文集

先日Dovetail GenomicsのHi-Cの話をしたので、今日は、論文リストを紹介
投稿中のものも含まれます。色んな生物ゲノムが読まれているんだなあ・・・

Dovetail Genomics Current Publications !!

【Genome Assembly】

Improved Genome Assembly and Annotation for the Rock Pigeon (Columba livia)
Holt C et al. G3 (Bethesda). 2018 May 4;8(5):1391-1398. doi: 10.1534/g3.117.300443.

The sea lamprey germline genome provides insights into programmed genome rearrangement and vertebrate evolution
Smith JJ et al. Nat Genet. 2018 May;50(5):768. doi: 10.1038/s41588-018-0075-2.

A High-Quality Reference Genome for the Invasive Mosquitofish Gambusia affinis Using a Chicago Library
Hoffberg SL et al. G3 (Bethesda). 2018 Apr 27. pii: g3.200101.2018. doi:10.1534/g3.118.200101.

EquCab3, an Updated Reference Genome for the Domestic Horse
Kalbfleisch TS et al. 2018 Apr 25; Pre-print*.

High quality whole genome sequence of an abundant Holarctic odontocete, the harbour porpoise (Phocoena phocoena)
Autenrieth M et al. 2018 Apr 19; Pre-print*.

Hologenomic adaptations underlying the evolution of sanguivory in the common vampire bat
Medoza MLZ et al. Nat Ecol Evol. 2018 Apr;2(4):659-668. doi: 10.1038/s41559-018-0476-8.

Whole-genome assembly of the coral reef Pearlscale Pygmy Angelfish (Centropyge vrolikii)
Fernandez-Silva I et al. Sci Rep. 2018 Jan 24;8(1):1498. doi: 10.1038/s41598-018-19430-x.

Genetic architecture drives seasonal onset of hibernation in the 13-lined ground squirrel
Grabek KR et al. 2017 Dec 2; Pre-print*.

The draft genome of tropical fruit durian (Durio zibethinus)
Teh BT et al. Nat Genet. 2017 Nov;49(11):1633-1641. doi: 10.1038/ng.3972.

Strategies for optimizing BioNano and Dovetail explored through a second reference quality assembly for the legume model, Medicago truncatula
Moll KM et al. BMC Genomics. 2017 Aug 4;18(1):578. doi: 10.1186/s12864-017-3971-4.

Rapid cloning of genes in hexaploid wheat using cultivar-specific long-range chromosome assembly
Thind AK et al. Nat Biotechnol. 2017 Aug;35(8):793-796. doi: 10.1038/nbt.3877.

The house spider genome reveals an ancient whole-genome duplication during arachnid evolution
Schwager EE et al. BMC Biol. 2017 Jul 31;15(1):62. doi: 10.1186/s12915-017-0399-x.

The Molecular Genetic Basis of Herbivory between Butterflies and their Host-Plants
Nallu S et al. 2017 Jun 23; Pre-print*.

Improved genome assembly of American alligator genome reveals conserved architecture of estrogen signaling
Rice ES et al. Genome Res. 2017 May;27(5):686-696. doi: 10.1101/gr.213595.116.

Improving and correcting the contiguity of long-read genome assemblies of three plant species using optical mapping and chromosome conformation capture data
Jiao WB et al. Genome Res. 2017 May;27(5):778-786. doi: 10.1101/gr.213652.116.

The impact of third generation genomic technologies on plant genome assembly
Jaio WB & Scheeberger K. Curr Opin Plant Biol. 2017 Apr;36:64-70. doi:10.1016/j.pbi.2017.02.002.

Genome assembly with in vitro proximity ligation data and whole-genome triplication in lettuce
Reyes-Chin-Wo S et al. Nat Commun. 2017 Apr 12;8:14953. doi: 10.1038/ncomms14953.

The genome of Chenopodium quinoa
Jarvis DE et al. Nature. 2017 Feb 16;542(7641):307-312. doi: 10.1038/nature21370.

De novo hybrid assembly of the rubber tree genome reveals evidence of paleotetraploidy in Hevea species
Pootakham W et al. Sci Rep. 2017 Feb 2;7:41457. doi: 10.1038/srep41457.

Genome evolution in the allotetraploid frog Xenopus laevis
Session AM et al. Nature. 2016 Oct 20;538(7625):336-343. doi: 10.1038/nature19840.

Sequencing wild and cultivated cassava and related species reveals extensive interspecific hybridization and genetic diversity
Bredeson JV et al. Nat Biotechnol. 2016 May;34(5):562-70. doi: 10.1038/nbt.3535.

Chromosome-scale shotgun assembly using an in vitro method for long-range linkage
Putnam N et al. Genome Res. 2016 Mar;26(3):342-50. doi: 10.1101/gr.193474.115.

【FixC & Selva】
Structural variation detection by proximity ligation from FFPE tumor tissue
Troll C et al. 2018 Feb 27; Pre-print*.

*Pre-print articles available on bioRxiv

あと、ついでといっては失礼ですが、来週12日(火)にイルミナ社のウェブセミナーで、理研の工樂さんによるHi-Cのお話があります。
私は立場上、イルミナ社の宣伝したら怒られますが(笑)、これは純粋にゲノムサイエンス&技術の話なので良いかと。
興味のあるかたはどうぞ!

2018年6月7日木曜日

PacBioデータとHi-Cデータがあるなら、これ! Falcon Phase

先日、Hi-Cソフトウェアの話をしましたがその続きを少し。
PacBioのアセンブリとHi-Cスキャフォルディングを組み合わせた、その名も、
Falcon Phase
論文はここから
ソフトウェアはここから
因みにこのソフトはPacBioはサポート外です。バグなどは直接GitHubにお知らせくださいね。
そして、PacBioのSara Kinganが先月、SFAFで発表したスライドがこちら
DiploidのアセンブラーといえばFalconがあります。
Falcon+Unzipの弱点は、Primary Contigの中にも、Haplotype switchという現象が起こりうることです。
一本のPrimary Contigが必ず同じ染色体(ハプロタイプ)由来かというと、実はそうでは無く、十分長いHomozygousの部分がある限り、バブルの部分、Heterozygousの部分をきれいにハプロタイプに分けるのは難しい。
リード長に収まる範囲のSNPがキチンとPhasingできるのとは、少し別次元の話です。
Haplotype switchは、アセンブリした後の数百キロ~数メガ塩基のレベルで起こりうる現象です。
とここまで書いてて、書き言葉では全く伝わらないことに気づいた、、。
Primary Contigは、100%正確なハプロタイプというわけではなく、このようなHaplotype switchが起こる可能性があるので、Pseudo-haplotypeと呼ぶべきでしょう。

Falcon Phaseは、このHaplotype switchをできるだけ無くし、正しいハプロタイプを作るために開発されました。
まず、Unzipの結果からスタートします。
Priamry Contigのどこの部分がハプロタイプなのか(Associate Contigがある場所)を決めて、Primary Contigの中のフェージングしていた場所を分けます(Phase Block)。
その後、Hi-Cデータを加えて、Phase Blockが本当はどちらの染色体由来だったのか、をHi-Cのマッピング情報から推測するわけです。

なるほど、良く考えたな。

もちろん、Dovetail GenomicsのHi-Cデータもそのまま使えますので、ヘテロ性の高い、F1ハイブリッドをシークエンスした方は試してみたらいかがでしょうか?
1Gbゲノムサイズあたり、1億リードぺアのHi-Cデータが必要らしいです。



2018年5月29日火曜日

ヒト構造解析とFix-C

前回Hi-Cについて少し触れたので、もうちょっと。
Hi-Cと言えばこれらの論文が有名です。


結構前からあるテクノロジーなんですね。
元々は染色体の構造、3次元での構造を解析する技術です。

それをゲノムアセンブリに応用したのが、Chicagoであり、Dovetail Hi-Cであったわけですが、もともとの構造解析という使い方を応用して、「ヒトゲノム構造解析」というのも可能なわけです。

Dovetailのヒトゲノム構造解析サービスは、アメリカではすでに行われています。

この資料はここからダウンロードできます。

実験の原理は、ゲノムアセンブリに使うHi-Cと同じです。
最初のサンプルが血液、細胞、またはFFPEサンプルになります。

ちなみに血液なら2mL 、細胞の場合10の7乗個程度、FFPEは厚さ10μmのスライス、組織の場合は1平方㎝ x 20μmが必要量らしいです。
そこからHi-Cライブラリを作製し、HiSeqを使って2x150PEで150M本読む。

そしてヒトゲノム参照配列にマッピングし、距離の分布図を作る。
染色体レベルの転座や大きな欠損変異などを検出する。
→解析のソフトウェアは、Selvaというものを用いる。

検出できる変異の大きさは、50kb以上です。それ以下だと感度が下がるそうです。
つまり、PacBioとは競合しない!!
PacBioは50bp~50kbくらいまでのInDel検出が得意だけれども、50kb以上の巨大な変異はリードが届かないので検出できない。
Hi-Cは連続配列では無くリードペアで変異を検出するので、あまり小さい変異検出だとノイズと差がはっきりしない。そのかわり、染色体レベルの構造変異検出には強い!

論文もbioRxivですが投稿されていますので、アルゴリズムに興味のあるひとはどうぞ。
検出感度でいうと、FISHと比べてもひけをとらず、例えば12個のがんのFFPEサンプル(20~90%の割合)をHi-C+Selvaで解析し、FISHで検出できた変異とどれくらい合っていたか、を比較したデータがあります。
Dovetailヒト構造解析のProduct Highlightから
ダウンロードできる資料です
ほとんどはFISHの結果と正しく、またサンプル#1や#6は、FISHの方が間違っていたそうです。がん細胞の割合が20%のとき、50kb以上の大きさの構造変異の検出感度は67%です。100%がん細胞のときは検出感度90%だそうです。

そしてこのFFPEからのHi-C、というサービスを行っている会社はほかに無いらしく、Fix-Cという商標をつけています。
FFPEはもともとDNAがフラグメント化しているから、ロングリードには向かないんですよね。

最後に、これは「まだ」受託サービスのみ、の商品なんです。
つまりサンプルをアメリカに送らなければいけない。
アメリカ国内のサンプルなら国内移動で問題無いので結構売れているらしいです

キットやソフトウェアの配布は、今のところ、予定はありません。
そういうニーズが世界的に増えて、キット&ソフトウェアの配布が可能になればもっと世界に広がる技術だと思うのですが。
とりあえず、海外へ送ってもいいサンプルで、この変異解析に興味がある方は連絡ください。
1サンプル、凄く高めに見積もっても50万円くらいです。
実際は都度見積もりですけれど。

2018年5月27日日曜日

PacBio 解析ウェブセミナーと、Hi-C解析のソフト

先日は秋葉原にて、第4回目となる「PacBio現場の会」を行いました。
事前登録88名、プラス演者の先生方、協賛企業の方々、我々。
部屋のキャパの都合で88名で打ち切ったのですが、もっと大きな部屋を用意すれば良かったかなあ。
情報交換会やその後の有志二次会も楽しかった。

個人的な意見ですが、NGS現場の会の大会が無くなって、NGS関連の情報を総合的に、学術的な枠を超えて、得る場がほぼ無くなったと思います。
植物の研究者、魚類の研究者、微生物の研究者、がんの研究者、遺伝病の研究者、、、。
こういう方々が一同に会す場はなかなか無いですよね。
共通点はゲノム、ということでシークエンサー関連の企業のセミナーが集まりやすいのでしょうね。たいてい無料ですし。

余談ですが、大きな国際学会、例えばアメリカ人類遺伝学会とかでは、企業はブースやセミナーの他に、レストランを貸し切って招待制のディナーや、パーティー(Customer Appreciation Event )をするんです。
お客さんとのネットワーキングが主目的で、あとは主催企業のプレゼンなどがあります。
こういうの、日本でもできないかなあ。

さてさて、PacBioデータ解析のウェブセミナーが日本にやさしい時間帯で行われます!
深夜じゃないよ!

第一回: 6/7 1PM~ デノボアセンブリ解析のウェブセミナーです
 A Sketch of Assembly Recipes for PacBio Data

第二回: 6/14 1PM~ トランスクリプトーム解析のウェブセミナーです

初心者にもわかりやすい内容、と聞いていますので、これから始めるひとにも良いかと思います。

さてさて、今日お知らせしたいのはもうひとつ。
PacBioのデータのアセンブリと言えばFalcon+Unzipですよねー?
Hi-Cデータというのは、Dovetail Genomicsでも行っているあの、染色体レベルでスキャフォルディングをするデータです。
最近ではここのPAG報告で紹介しました。
Hi-Cについては遺伝研の東先生のこのスライドがとても良くまとまっていると思います。

このHi-Cデータを使ってPacBioのアセンブリ結果からスキャフォルディングするアルゴリズムの論文が出ました!

FALCON-Phase: Integrating PacBio and Hi-C data for phased diploid genomes

PacBioデータとHi-Cデータが手元にあって、アセンブリに興味のあるひとは使ってみたらいかがでしょうか?

2018年5月4日金曜日

Sequel を爆買いする中国の勢いが止まらない(ジョークです)

注:ジョークです エイプリルフールネタにしようと思っていた
------------------------------------------------------------------------

中国では、Novogene社やAnnoroad社がSequelを10台単位で購入しているそうで、その爆買いぶりに開いた口が塞がらない。
そんな中、PacBio本社では、これからさらに来るであろう注文を見越して生産態勢を一層強化したそうです。
それがこの写真!
生産が完了したSequelたち
日本含むアジアに向けてまもなく出荷予定のSequelたち
積み出しを待つSequelたち
こちらは欧米向け出荷予定のSequelたち
これちょっと並び方がおかしい? それは真上から撮影したらわかります。

すみません、全体を写すとこうなります
遊び心がありますねー。
NGSの装置で会社のロゴを作ってしまうとは!!



ゴールデンウィーク中日ですからこういう軽いネタで許してください
はい、もちろんこれは本物の装置ではありません。USBです。
欲しいかたは↓こちらの会に参加してGET! 数に限りがあるので早いもの勝ち

5月18日「PacBio現場の会 2018」
まだ若干席がありますよ!

2018年4月29日日曜日

Genetics and Genomicsっていう夜中のバーチャルイベント

ゴールデンウイークですが、皆さんはいかがお過ごしでしょうか。
帰省? 旅行? それとも仕事?
私は家でのんびり、というわけにもいかず、初日は人間ドックでした。
直ぐわかる範囲では検査結果に異常は無く、若干白血球が低め、みたいなことを言われましたが気にするほどでは無いとのこと。
そんなわけでこんな時間(夜中)ですがパソコンに向かっています。 

LabRoots.comが提供するバーチャルイベント、Genetics and Genomicsが再来週の5月9と10日にあるそうです。
PacBioを使ったメタゲノムの話が2つあるみたいなので、紹介しますね。

先ずは我らがCSOの話。ショットガンメタゲノムのお話も出てくるそうです。

こちらはrRNAのPCRアンプリコンで株レベルまでの微生物プロファイルをした話。
と、以上の2つがPacBio社からお知らせメールで回って来たのですが、いかんせん、時差がキツイ!
向こうの朝9時って日本の翌深夜1時なんですよねー。
1時に難しい話を英語でされて、寝落ちしない自信が無い・・・

私的には、以下の構造解析、NGMLRとSniffle の開発者の話も聞きたいけれどこれも深夜1時、ガクっ。
でもPacBioやNanoporeのデータを使って、さらに10Xのリンクドリードも使って、染色体構造解析をするあたり、やっぱり1時過ぎまで起きて聞きたいなあ。と思ってみたり。

リンク先はこちらです
興味のあるかたは、頑張って起きてみてください
夜中のイベント、っていうと楽しく聞こえるけど、ね。



--------- 5/18(金)は秋葉原へ集合!------------
「PacBio 現場の会 2018」
登録はこちらから
5名の招待演者と
PacBio、Dovetail、その他最新NGS情報を
一度に聞ける年に一度のイベントです!
情報交換会もあります。
参加無料 空席あと少し、急げ‼

2018年4月23日月曜日

ローディングリコメンデーションという「推奨」

PacBioに限らず、ローディングリコメンデーションという単語があります。
アプライDNA量の推奨値、という方がわかりやすいでしょうか。
シークエンスデータが最も最適に出力されるような、DNAライブラリの濃度と量のことを示しています。

「最適に出力」という意味は「より長いリードをより多く出力」と考えてかまいません。

その前に、、、
P0、P1、P2、というPacBioに特別な単語があります。
これはZMWの中にポリメラーゼとSMRT Bellライブラリのコンプレックスが入ってシークエンスされるわけですが、そのデータを見て、

  • P0:データ無し→つまりZMWにライブラリが入っていない。空っぽ
  • P1:きれいな1分子のDNAデータが出てくる→きちんとZMWにライブラリが入って、かつシークエンスがされていた
  • P2:上記以外→データがノイズばかりの場合。ZMWに複数ライブラリが入った場合。クオリティが低いリードしか読まれていない場合など
を区別しています。
実際解析に使用されるデータは、P1のデータです。
アプライDNA量が極端に少なければ、ZMWに入るライブラリが少ししかないのでP0が増えます。逆に極端に多くライブラリを入れた場合は、オーバーロードと言って、P0は減るかもしれませんがP2が増えることが予想されます。

RSIIや初期のSequelの場合、ZMW全体のうち20%~40%のZMWからP1データが出力されることが望ましい、と言われていました。
ポワソン分布に従うならば33%、それをもっと上げるためにマグビーズなどが使用されて40%、多い時は50%を目指していました。

Sequelの5.1になり、そのリコメンデーションが改訂されました。ここ
  • P1はほとんどのアプリケーションで50%以上を目指すように
    (ただし、あまり多くのP1リードを目指すとリード長が短くなる恐れもある)
  • オーバーロード(ライブラリの入れすぎ)の指標は、P0の値を参考にする。P0は20%くらいが望ましく、10%を切るようならばライブラリ量を減らした方が良い
  • Iso-Seqやアンプリコンの場合、Pre-extension(読む前にシークエンス反応をある程度進める方法)をするので、P1は70%を目指すことが可能で、P2は20%未満を狙う
  • Expressキットを使うゲノムアセンブリ用のロングライブラリの場合、P1は50%台を目指す
  • バクテリアのマルチプレックスは、P1は50~65%を狙う
と、細かいことですがつまり長いライブラリでもZMWの半分からは良いデータが出てくるような濃度でアプライすることを推奨しているのですね。
SequelセルのZMWは100万あるので、50万本のロングリードが1セルから出力されることを想定して、最適なライブラリ濃度を調整することが必要というわけです。

短めのライブラリ、Iso-Seqやアンプリコンの場合は、最高70万本の配列が出力されることが十分あり得るのでデータ単位のコストはかなり低くなると思います。

ここまで書きまして思うところがあるのですが、
P1の数字を狙って濃度調整することは難しい!
というのがユーザの本音だと思います。

なのであくまでもリコメンデーション、推奨、なのです。
「その値を狙ってアプライしたときが一番良い結果を生むと思います。ですが結果はサンプルにも依存するので必ず良い出力を出すという保証はございません」
という意味です。

なので受託に頼んでスループットが予想ほど良く無くても、受託会社さんを責めないでくださいね。

2018年4月17日火曜日

ハイブリッド でIso-Seqしたい方はこの論文を!

Iso-Seqは皆さんご存じですね。
PacBioのロングリードで完全長cDNAを一気に読んで、スプライシングバリアントを含めたRNAの構造解析をする方法です。

ショートリードでデノボで転写産物をシークエンス&アセンブリする方法には、Trinityという有名なものがあります。
しかしリピート配列があると正確に転写産物を再現できない、K-merサイズによってはアセンブリが不正確になる、など、ショートリードだけの完全長cDNAシークエンスには限界がありました。

IDP-denovo
そんな中、ショートリードでデノボアセンブリしたアイソフォームコンティグに、ロングリード配列をマッピングさせて、アイソフォーム全体の姿を再現するIDP-denovoというツールが出ました。

この論文はあくまでも、ショートリードがメインで、これを補佐する役割としてPacBioのロングリードが登場します。
正直、私はPacBio一本でやった方が良い気がしたのですが、、、。
だって最初のショートリードのアセンブルで、既に、読める配列がイルミナ技術に依存しているでしょう?
それからPacBioで一分子配列を付け足して補正、ってどれだけ精度が上がるのか疑問。

多分、コストが問題だったのでしょう。
でも今はSequel使えばコスト的にもだいぶ割安感があると思うんですけどね。



さてさて、ここからはIso-Seqの話です。
SMRT Link(PacBio解析ソフトウェア)バージョン5.1には、Iso-SeqとIso-Seq2が搭載されています。
へぇ、Iso-Seq2とは?

その前にIso-Seq解析のおさらいです。
実験のプロトコルはこちらからダウンロードできる。簡単に言うと、

  1. サンプルの中で発現しているmRNAの、完全長cDNAを作る
  2. 完全長cDNAをPCRで十分量増やす
  3. SMRT Bellライブラリを作る(SequelではIso-Seqのサイズ分割は基本行わない。長い転写産物に注目したい場合は4kbを境に分割しても良い)
  4. Sequelで読む→ データが出てくる


ここから先は、SMRT Link 5.1で解析すると仮定しますね。
Iso-Seq解析は最初にCCSを作ります。

5'プライマー、インサート配列、ポリA配列、3'プライマーを持つ場合、完全長cDNAとみなされます。完全長=Full Length(FL)と不完全長=Non-FLのリードに分ける。
このステップがClassify

次のステップがClustering
アイソフォームレベルのクラスタリングを行うにはFLのCCSだけが使われる。
このクラスタリングステップがとても時間がかかり、今まで問題になっていた。
Iso-Seq1では配列の長さが同じくらいのものをまとめ、クラスタリングを行っている。
Iso-Seq2では塩基配列のパターンから同じようなものをまとめ、クラスタリングを行っている。
2の方が1より2倍ほど計算速度が速いとのこと。
さて、クラスタリングしてアイソフォーム配列が出来たら、これにFLとNon-FLのサブリードをアラインし、ArrowまたはQuiverで配列精度を高める。
いずれにしても、転写産物を網羅的に見る場合は、Iso-Seq2の方が良い。
一方、ターゲットIso-Seqの場合は、どのアイソフォームも同じような配列パターンを持つので、サイズによってクラスタリングする普通のIso-Seqの方が良い。

最後に、リファレンスがある場合はGMAPでゲノム配列にマップして、Alternative Splicingを見る。ここはヒトとかマウスとかのモデル生物で行われる。
アイソフォームを見つけたらその精査が必要だ。
SQANTIというツールは見つけたアイソフォーム配列を、機能ごとにアノテーション付けてくれる。
FSM = full splice match   (perfect match w/ known isoform)
ISM = incomplete splice match  (partial match)
NIC = novel in catalog  (novel isoform with known junctions)
NNC = novel not in catalog  (novel isoform with new junctions)
というように。
論文にもなっているのでこちらもどうぞ

そのほかにもありますが今日のところはこれにて


518日(金)は秋葉原にて「PacBio現場の会 2018
登録はこちらから

2018年4月9日月曜日

ロングリード解析やっているひとはこの論文を絶対読まないと!

NGS解析をやっているひと、特にロングリード解析をやっているひとは絶対読まなければいけない論文、それがこれ
Piercing the dark matter: bioinformatics of long-range sequencing and mapping
Sedlazeck et al., (2018)Nature Reviews Genetics.
ロングレンジ技術を使ったゲノム解析に関する、すごくComprehensiveにまとめられた、バイオインフォマティクスのレビューです。
これはほんと超おすすめ。
このレビューはいくつかのパートに分かれてまして、

1.ロングリードテクノロジーのまとめ
ここでいうロングレンジ技術とは、Pacific Biosciences (PacBio)や Oxford Nanopore Technologies (ONT)のように、「本当の」ロングリードと、10X Genoimics のリンクドリード、BioNanoのフィジカルマッピング、Hi-Cのような超ロングレンジメイトぺア、を含みます。
それぞれの技術の特徴(ロングリードのエラー率の高さなど)がまとめられています。
Bamファイルの今のフォーマットが、ロングリードマッピングデータにはもはや向いていない、という点は前から言われていましたね

2.De Novo Assemblyへの挑戦

  • ゲノムに存在するリピート配列の存在が、ショートリードでのゲノムアセンブリを難しくしている
  • ロングリードが30カバレッジ未満しか無いときは、ショートリードとのハイブリッドを使うべきだろう
  • しかしショートリードでのロングリードエラー補正(PBcR, Nanocorr, Spades and MaSuRCA,)は、GCバイアスなどの問題でロングリードを正しくエラー補正できない可能性がある
  • ロングリード同士のSelf Correction (HGAP, PBcR, Canu, MARVEL or FALCON)が、もっとも良い
  • 倍数性の高いゲノムのアセンブルは今も、難しい (NRGeneという会社は倍数体があっても独自の秘密プログラムで行っているそうですが仕組みは非公開です)
  • コンティグを作った後のポリッシングには、QuiverやArrow(PacBio用)、Nonopolish(ONT用)、Pilon(ショートリードをポリッシングに使用)などがある
3.スキャフォルディングとギャップフィリング

  • スキャフォルディングには、10XやHi-Cなどが有効
  • しかしアセンブルの時点で高精度のコンティグを作ることが何より重要
4.SV解析
  • まずはSVの定義をはっきりさせている(挿入とか欠損とか、転移とか)
  • SV検出精度はマッピングの精度に依存する(BLASR, BWA-MEM, minimap/minimap2, LASTなどについても言及)
  • コスト、倍数体、リファレンス配列の精度、などがSV解析の大きな問題点

そのほか、ここには書ききれないほどのトピックスがたくさんあって、とにかく、一度読んでみてくださいと言うしかない!
バイオインフォマティクスのレビューなので、アセンブルからSVコール、RNAシークエンスまで、巷にあふれるたくさんのツールの解説があります。

もちろんこのレビューは、決してPacBio贔屓ではありません。
ロングリードはPacBioとONTがありますが、むしろ、最長ロングリードはONTに軍配が上がっている。
PacBioは、エラーのランダム性から、コンセンサス配列の精度は最も高いロングリードと言える。

どうやってもロングリードの場合、PacBioもONTもリード長には限界があり、結果、10XとかHi-Cとか、ショートリードによる擬似的な超ロングリードとの組み合わせがアセンブル結果や構造解析、フェージング解析の結果を大きく改善することは間違いない。

今の時代、複数のテクノロジーを、最適なバイオインフォマティクスツールをうまく使いこなして解析することが重要なんだなと、改めて実感するレビュー論文でした。



--------- 5/18(金)は秋葉原へ集合!------------
「PacBio 現場の会 2018」
登録はこちらから
5名の招待演者と
PacBio、Dovetail、その他最新NGS情報を
一度に聞ける年に一度のイベントです!
情報交換会もあります。
参加無料、PacBioに興味のある研究者なら誰でも参加OK!

2018年4月4日水曜日

PacBio現場の会 2018 登録スタート!

5月18日は、年に一度の現場の会、といっても「PacBio現場の会」です。
今年はもうNGS現場の会が無いので、復活しました、この名前!
場所は秋葉原UDX Next1

ロングリードを愛する全てのひとへ心を込めて

あえてロングリードとしたのは、今やPacBio以外でもOxford Nanoporeのシークエンサーで読んでいる研究者も多いだろうと思うからです。
もしあなたが、MinIONデータで何かを読んでいるとしても、私たちは拒みません。
PacBioがいまだにロングリード市場でメジャーなシークエンサーだということは、紛れもない事実なのですから。

前置きが長くなりましたが、登録サイトがスタートしたのでこちらからどうぞ!
英語名がPacBio User Group Meetingとなっているのは各国で統一感を出すための便宜的な名前なのでユーザーでなくとも参加できますよ



顔写真入りの紹介って、案外良いですねぇ
最新のプログラム、時間割りは「最新プログラムはこちらから」のリンクからダウンロードできます。
まだ変更が入るかもしれませんがご了承下さい。

5月18日ですよー
アキバですよー
時間は1時から開始で、情報交換会もあります 
結構びっちり、勉強になると思います

奮ってご参加下さい ここから

2018年3月31日土曜日

CCSは精度では全てのNGSに勝る。コストではサンガーに勝る。カナダの生物種同定プロジェクトの例


これは私がずーーーっと前にこのブログで説明したCCS(Circular Consensus Sequence)についての絵です。
一時期、CCSのことをROI(Reads Of Insert)と呼んでいたこともありましたが、わかりにくいということでCCSの呼び名が復活しました。

今のSequelでは、1セルあたり100万のZMWから30万本~60万本のリードが出てきます。
平均10kbのリード長とすると(実際は平均12kbのときもあればそれ以上のときもありますが、少な目に見積もって10kbとした)、15万本~30万本のリードは10kb以上読めていることになる。
例えば1kbのライブラリを作りランするとしたら、10回以上同じインサートDNAを繰り返し読んで作られたCCSが、15万~30万本作られることになりますね。
10回以上繰り返し同じDNAを読めば、かなり精度が高いCCSが作られます。
実際の解析ではもちろんパス数でフィルタリングするよりも、QVでフィルタリングした方が良いでしょう。


ミトコンドリア配列中にあるシトクロムCオキシダーゼI(COI)遺伝子の配列は、さまざまな生物で配列に違いがある。
GC含量が15%~45%とバリエーションが広く、サンガー法ではホモポリマーなどが原因で読みにくい。
この配列を読むことで生物種多様性を研究しているひとたちがいる。

International Barcode Of Life という国際プロジェクトがある。
Dr. Paul Hebert, Director of the Biodiversity Institute at Guelph, Canadaは、今までサンガー法で行っていたCOI配列のDNAフィンガープリントを、Sequelでバーコードを使って読み、大幅なコストダウンを実現したという。
Hebert博士のプレゼンの様子はこちらから録画が見れます。
Dr. Hebertのプレゼンから
実際にはCOI遺伝子の658塩基の領域を増幅して、アシンメトリーのバーコードを付けて、Sequelで読んだ。
100種類のバーコード配列をアシンメトリーにヘアピンアダプターに付けるので、100x100種類で合計10,000種類の識別が可能になる。

10,000種類の識別が一度に可能ということで、1日に4セルランし、1週間で260,000種類のDNA検体を解析したとのこと。



実験の詳しい内容はここの論文に書かれています。
サンガー法と比べても、コストと手間の面でSequelが圧倒的に優れています
精度もサンガー法と引けをとりません。
もっとも、一度に10,000サンプルとか言われると、DNA検体を集める方が大変かもしれませんが。
Hebert博士らの論文(2018)
なお、ショートリードでは658bpを連続して読むことはできません。
MiSeqを使った250bpメイトペアシークエンスでも届かないでしょう
同じロングリードのオックスフォード・ナノポアはどうか?
残念ながらCCSのように同じライブラリを何度も読むことはできないので、サンガー法のような精度を達成することはできないでしょう。

ということでSequel(もちろんRSIIも)は、PCRアンプリコンをたくさん一度に精度を高く読むことのできる唯一のNGSと言えるでしょう!

2018年3月30日金曜日

学会2連ちゃんした結果頭の切り替えが大変だった件

今週は日曜月曜が日本育種学会、火曜水曜が日本細菌学会。
両方とも福岡での開催で連続していたので2連ちゃんをしたわけです。
これは細菌学会での私たちのブース
お隣さんは、ショートリードのI社ですよ。反対のお隣さんはひとつおいてロングリードのO社ですよ。さすがAEさん!
まあ、NGS業界はみんな仲良いから変な空気にはなりませんけどね。

どちらも登録して中のセッションも聞きに行きました。
育種学会はもちろん植物の学会なので、遺伝マーカー、連鎖解析、植物の各組織の名前、収量、環境ストレス、というキーワードが頻繁に聞かれます。
一方細菌学会は、抗菌薬、選択圧、病原性、病気の名前、サーベイランス、プラズミド、というキーワードを良く耳にしました。
というわけで、あたりまえですが参加者の研究分野が全然違うのです。恐らくお互い接点は無いのでは。
なので2連ちゃんすると異業種交流会に来たような錯覚。

以下、私見ですが・・・
ゲノム解析の重要性について
育種学の分野では、イネなどの主要穀物は、国際プロジェクトなどである程度ゲノムが読まれている。しかし今は品種ごとにゲノムを決定する必要がある。コムギなどはゲノムサイズが大きく、また倍数性も高いため、完全ゲノムを決定するのは極めて困難。遺伝マーカーを決めるためにRAD-Seqなど様々な方法を試している。野菜や果物などもゲノム解析のニーズは高いが、植物はリピートなどが極めて多いので、完全なゲノム配列を求めるというよりも、選別のための遺伝マーカ―さえわかればOKという感じ。

細菌学の分野では、バクテリアはゲノムサイズが小さいので完全長ゲノムを決定することは十分可能。とはいっても、染色体中に数十Kbの同じ配列が逆向きに挿入されるような場合もあるらしく、そういう場合はもちろんPacBioなどロングリードが必要だし、それを使っても完全長決定が大変な場合もある。バクテリアゲノムは遺伝子が密な分、完全に塩基配列を決定する重要性が感じられた。
薬剤耐性、特にカルバぺネム耐性菌の場合、耐性遺伝子がプラズミドに乗っている場合があるらしいです。その場合はプラズミド配列を読むことが一層大切。


学会の参加者と話して感じたこと
育種学会には、全国の農業試験場、農研機構、国立研究機関、大学農学部、種苗メーカー、食品メーカー、酒造メーカー、などから研究者が集まります。
私が感じたのは、この業界は産学の繋がりが強いということ。
中にはいろいろ大人の事情もあるのでしょうが、外から見た感じは「みんなすごく仲が良い!」 
より良い農作物を作ろう、という目的はみな同じ。横のつながりが強いのでしょうかね。
あと良かったのは、育種学会のポスター発表では必ず毎回、地元の高校生も発表するんですね。こういうのは素敵です。
懇親会はいつも、地元の食材を使った料理やお酒がふるまわれます。秋の大会(育種学会は年二回)のほうがお酒の量凄い、気が。

細菌学会は、国立国際医療研究センター、国立感染症研究所などの研究機関、大学医学部の微生物や細菌学の教室、全国の総合病院などから研究者が集まります。
細菌学は産業と言うより、公衆衛生学の観点からいかに感染拡大を防ぐか、どうやって細菌からの感染を予防するか、の議論が多いように感じました。
生死に直結している分、緊迫感が感じられる学会かな。
こちらは懇親会は無し。ポスターのミキサーでは軽食がありました。
ポスターはこちらもすごい活気がありましたよ。部屋の温度が5度くらい上がっていたかもね。

育種学会と細菌学会はそんなわけで連続していたのですが、全然客層も違う学会なので頭の切り替えが難しかった。
でもどちらも今回はブース出したかいはありました。
出展料の数十倍のリターンはあったかも。

PacBio系の話は次にします


~~~さて連絡事項です~~~
今年もやります、PacBio現場の会!
2018年5月18日(金)
午後1時から5時過ぎまで 懇親会もあります
場所は東京・秋葉原のUDX Next1

演者の方も決まりました。4月になりましたらお知らせします!
バクテリアから植物ゲノム、がんゲノムなど幅広い分野から5名のお客様の講演
PacBioのアプリケーション、アップデート、Dovetail Genomicsの紹介などなど、盛りだくさんな半日セミナーになる予定です!

是非まずは日付をチェック!〇付けてほかに予定入れないでおいてくださいね!

4月になったら、NGS現場の会メーリスや、このブログや、PacBioからのメール、トミーデジタルバイオロジーからのメールなどで、登録サイトなどをお知らせします。
乞うご期待

2018年3月25日日曜日

ファインディング・ニモ

育種学会に来ています。このブース、雑多に見えるかもしれませんが、それは後ろのブースが見えているからですかねー。実際に見ると意外とすっきりしていますよ。
値段を入れたせいか、たくさんのお客さんが足を止めてくれました。

私たちの目の前の企業さんが、ブースに「人工気象器」というものを展示しているのですが、「人工太陽」をデモするたびに、眩しっ!
目の前が眩むっす。 これも育種学会あるある?

さて、学会とは直接関係ありませんが、ファインディング・ニモでおなじみのカクレクマノミのゲノムが読まれました。
Finding Nemo’s Genes: A chromosome-scale reference 1 assembly of the genome of the orange clownfish Amphiprion percula
https://www.biorxiv.org/content/early/2018/03/08/278267
サウジアラビアとオーストラリアのチームですね。日本人のかたも著者に入っていますね。

彼らは20kbライブラリをPacBio RSIIで6時間、113セル読み、113.8Gb(121カバレッジ)のロングリードを得ました。
Falconアセンブリで最初にエラー補正された58カバレッジのp-readをアセンブリに使い、最終的に1,414本のPolish済みコンティグ(N50=1.86Mb)を得たそうです。
その後はもちろんHi-Cでのスキャフォルド。アセンブリ結果の98%の配列は24本の染色体の中に納まったそうです。
最終アセンブリ配列は908.8Mbで、コンティグN50は3.12Mb、スキャフォルドN50は38.4Mbとのこと。
PacBioとHi-Cの組み合わせはここでも活きていました
魚類の中では、最も長い連続配列を取得したアセンブリ結果のひとつだそうです。

さて、最近論文発表された同属のアセンブリ(NanoporeとIllumina、IlluminaとPacBio)と比較して表をPacBioのマーケが作ってくれたので見てみましょうか。

PacBioのみでアセンブルしたA.percula が最も長いコンティグ/スキャフォルドN50を達成していることがわかるでしょう。

2018年3月20日火曜日

PacBio Sequel v.5.1  ~もうバージョン5.1になってました、、、

装置やソフトウェア、試薬のバージョンアップは、この業界では頻繁にあることです。
今のSequelでは、装置ソフトウェアと解析ソフトウェアが同じバージョンでそろっていて、試薬やケミストリーが別のバージョン番号で管理しているのです。
ちょっとややこしいですが、試薬・ケミストリーが v.2.1で、ソフトウェアが v.5.0 という感じだったんですね。
解析ソフトウェアSMRT Link(SMRT Analysisを含む)のバージョンが、装置ソフトウェアと同じバージョンです。

そこで今回、新たなバージョンアップ!

ソフトウェアが v.5.1になり、ケミストリーが 2.1 version 2 に!
ん? v.2.1 のさらに v.2 って・・・ と思う方もいるでしょうが、そこは気にしないでください。

装置&ソフトウェアの v.5.1と、試薬 v.2.1(v2)を使った場合のスループットがこちら。
ロングライブラリ(35kb)を10時間読んだとき

ショートライブラリ、5kbアンプリコンを20時間で読んだとき

そう、v.5.1から、10時間ムービーと20時間ムービーが選べます。
20時間で読む場合は、LRという別のSMRT Cellを使う必要があります。
(因みにスタンダードのセルよりもLRセルの方が若干高価)

どう使い分けるのか?ですが、今のところ、
  • ゲノムアセンブリのような長いインサートライブラリは10時間
  • PCRアンプリコンやIso-Seqのような短いライブラリは20時間
をお勧めしています。将来的には変わるかもしれませんが、今はこのように、長いライブラリは今まで通りの10時間で読み、短いライブラリは、もちろん10時間でも良いけれど20時間で読むこともお勧め、ということです。
もちろん、20時間で読んだ方がロングライブラリでも長く読めるのでは?という疑問が出てくると思いますが、今のところ、ロングライブラリを20時間で読んでも、10時間で読んだときと平均リード長はほぼ同じ(最長リードは長いが)。というデータが出ています。
LRセルの方が高価だということを考えると、10時間でも費用対効果は良い。

ところが短いライブラリで、主にCCSを作ることを目的としたシークエンスでは、20時間は生きてくるのです。
先のデータによると、

35kbライブラリの場合、10時間で読んだとき
  • データの半分以上は、30kb以上の長さのリード(ポリメラーゼリードとサブリードはほぼ同じ長さとみて良い)
  • 最長リードは90kb超え
  • 1セルあたりの出力塩基数は 10Gb
  • 出力リード数は40万

5kbアンプリコンライブラリの場合、20時間で読んだとき
  • データの半分以上は、70kb以上の長さのリード(アンプリコンサイズが5kbだから何度もインサートを繰り返し読むことのできるポリメラーゼリード、が多く出力される)
  • 最長ポリメラーゼリードは180kb超え
  • 1セルあたりの出力塩基数は20Gb
  • 出力リード数(この場合出力CCS数と言っても良い)は40万

アプリケーションごとのSequel v5.1パフォーマンス(1 SMRT Cell あたりの出力)は以下のようになっています(v5.1 Software Upgrade and Performance Overview - Customer Training より引用)

Whole Genome Sequencing for De Novo Assembly
-Up to 10 Gb:サイズセレクション済の 40kb以上のロングライブラリの場合
-Up to ~7-10 Gb:サイズセレクション済の 15-40 kbロングライブラリの場合

Iso-Seq 完全長 cDNAシークエンス
-Up to 20 Gb
-Up to 250,000-350,000本の full-length non-chimeric (FLNC) reads

Targeted Sequencing (アンプリコンシークエンス)
-Up to 20 Gb
-Up to 300,000 CCS reads:2.5 kb アンプリコンの場合
-Up to 200,000 CCS reads:5 kb アンプリコンの場合
-P1リードのうち 40% 以上は QV 30 のCCSを作成可能:5 kb アンプリコンの場合

Structural Variation Calling (構造変異解析)
-Up to ~7.5 Gb: サイズセレクション済の 15kb ロングライブラリの場合

「Up to」と書かれていますね。これは、そういう意味です。
必ず出る保証はないけれども、うまくいけばこのくらいの塩基は読めるという。

と書いていて自分で言うのも何ですが、数字ばかり並べてもあまり説得力がないと思います。
それぞれ、研究にどれだけ使えるのかを具体的に示せなければ意味が無い。
これについては次に書く予定です。

お知らせ:
3/25-26 日本育種学会総会
3/27-28 日本細菌学会総会
にそれぞれ出展します。どちらも福岡での開催です!

2018年3月16日金曜日

Human Genome Meeting 2018 @パシフィコ横浜 終了!

あー、終わった終わった。
いつも学会展示会の後はそう思います。
立ちっぱなしも結構疲れるんですよ。

今週はHuman Genome Meetingという国際学会に出展していました。
RIKEN&Hugoが主催で開いたこのミーティングには、およそ400人の国内外のヒトゲノム研究者が集まったそうです(最終参加人数はまだ聞いていませんが、およそそれくらいの人数かと)

どうですか? このすばらしいブースデザイン!
サイズ感がわからない?
バックの絵は高さが2mちょい、横幅は4mくらいあるんですよ。

他にもたくさん企業が出展していまして、ロングリードのもうひとつの会社も、ショートリードの会社ももちろん。
シークエンス受託会社も、タカラバイオさんをはじめ、マクロジェンさん、Novogeneさん、DNA Linkさん、BGIさんも出展。
BGI シークエンサーも、展示してありました。100bpまたは200bpのペアエンドで読めるらしいです。
イルミナさんの iSeq は、斬新なデザインでしたね。白いカクカクっとした立方体。
半導体のチップは、どこかの会社のアレにそっくりでした。
さすがに写真は撮らなかったですけど。

さてさて、私たちPacBioは、初日にスポンサーセッションとランチョンセミナーをやりました。
スポンサーセッションでは、東京大学大学院医学系研究科 ゲノム医学講座の河津正人先生に、「Genetic status of immune microenvironment in microsatellite instability-high colorectal cancers」という題名でお話し頂きました。

ランチョンセミナーでは、前半をPacBioのCSO、Jonas Korlachが「Accessing the full size-spectrum of human genetic variation using PacBio long-read SMRT sequencing on the Sequel System」
後半をHouston Methodist Research Instituteの芦澤哲夫先生に「Internal sequences of large pentanucleotide repeat expansion alleles in SCA10」というタイトルでお話し頂きました。

Jonasの講演

芦澤先生の講演

翌日、私たちはアジア時間に合わせてウェビナーを行いました。
芦澤先生には、こちらのウェビナーでもお話し頂き、たくさんの参加者が参加されました。
当日参加できなかったかへ朗報。
ここからビデオ録画が視聴できます。

精神疾患とその原因のひとつと考えられている、繰り返し配列のシークエンス。
Cas9を応用したPacBioのEnrichment技術。
PacBioはまさに、メディカルに応用できるロングリード技術である、ということが実感できると思います。

是非ご覧ください。


2018年3月5日月曜日

2018年3月 最近のIso-Seq論文

3月になって東京も少し暖かくなってきましたね。
予報によると桜の開花は東京は3月17日だそうで、平年より早め。
ところが先週行った沖縄では、桜の木は既に緑でした!
沖縄では桜は毎年1月下旬に開花するらしいです。といっても最初から葉桜とのこと。
桜吹雪は無く、散るときはツバキみたいに花被全体が落ちるらしい。

さて、今日は久々にIso-Seqの話題
PacBioのIso-Seqメーリングリストがあってそこから送られてきた最近の論文リストを紹介します。

1.Minio et al. Isoform-scale annotation and expression profiling of the Cabernet Sauvignon transcriptome using single-molecule sequencing of full-length cDNA

2.Yan et al. SMRT-Cappable-seq reveals complex operon variants in bacteria

3.Workman et al. Single-molecule, full-length transcript sequencing provides insight into the extreme metabolism of ruby-throated hummingbird Archilochus colubris, Gigascience (2018)

4.Balazs et al., Long-Read Sequencing of Human Cytomegalovirus Transcriptome Reveals RNA Isoforms Carrying Distinct Coding Potentials, Scientific Reports (2017)

5.Cheng et al., Long-read sequencing of the coffee bean transcriptome reveals the diversity of full-length transcripts, GigaScience (2017)

この中でも2のバクテリアIso-Seqは今までに無くて面白いかも。
Iso-Seqというと、真核生物のmRNAのスプライスバリアントを一気に読みぬくことができる強み、が特徴です。
でもバクテリアは、、、イントロンありませんよね?

そこでバクテリアのIso-Seqは何が見れるのかというと、

オペロンです!

オペロンって、分子生物学・分子遺伝学の最初の方で習いました、よね?
プロモーター、転写開始点、終了点などを初めて習うところで。

Yan et al. SMRT Cappable-seq
バクテリアのmRNAにも poly-A 配列があります。
最初の cDNA は、オリゴ dTを含むRTプライマーによって逆転写で作られます。
不完全に作製された cDNA はRNase I によって排除。
次にTerminal Transferaseによって cDNA の3’側にPoly-G が付けられます。
2本鎖目の cDNAとその後はPCR増幅によって作られていきます。
Yan et al., SMRT Cappable-seq
その後USER(NEBの酵素名)によってdUracilは除去され、スティッキーエンドが作られます。その後、SMRTbellライブラリが作成される、という流れ。

著者にNEB社が入っているので酵素はクローンテック社のものでは無くNEB社のもので完結しています。
そこは少しPacBioオフィシャルプロトコルと違うところです。

で、このバクテリアIso-Seqを大腸菌でやってみたところ、なんと40%の転写終了点が遺伝子リードスルー(日本語訳わからん)だったとのこと。
この技術は真核生物のスプライスバリアントと同じくらい、バクテリアオペロンのバリアントもたくさん存在することが明らかになるかもしれませんね。

2018年1月28日日曜日

ダボス会議でもゲノムプロジェクトがトピックに上がったらしい件

ニュースで知ったのですが先週はスイスのダボスで「世界経済フォーラム」が行われていたそうですね。
通称「ダボス会議」。最終日にはアメリカのトランプ大統領がスピーチし、「アメリカファーストはアメリカ孤立主義では無い」と述べたそうです。外では反トランプデモをやっていたそうな。

正直ダボス会議って、主要各国の首相や大統領、官僚や経済界トップなどが集まって、なんか世界のためにどうするか話し合う場、のような漠然としたイメージしかありません。
「国連総会」よりもまとまりがあるような、「G20」よりも守備範囲が広いような、そんなイメージしかないなぁ。
日本であまり報道されないのも、今年は安倍総理が出席しなかったからかな?
G7の首脳で今回出席しなかったのは安倍さんだけだったらしい・・・。

日本での報道があまり無いならググるしかないわけですが、ダボス会議の精神は、「世界の多様性を重んじて、社会をより良くするための、マルチステークホルダーになる」ことらしいです。
何だか漠然としたテーマですね。簡単にいうと「世界にはいろんな価値観のある国や民族、宗教があるけれど、お互いを認め合って、これまでのような戦争をせずに、地球の限られた資源をみんなで仲良く使いましょう!」っていうのを確認し合う会議らしい。

経済フォーラムというだけあって、産業やビジネスと密接に関連する環境汚染や資源の枯渇問題、地球温暖化、脱炭素社会などへの取り組み、なども話し合われたみたいです。
これは私がググって探したわけではないのですが、ダボス会議ではゲノムプロジェクトの話題もあったそうな。

ダボス会議のウェブサイトより
UC デービスのウェブサイトより
地球上に存在する植物・動物から昆虫、単細胞生物まですべての真核生物種の推定数は1,500万(この数字には色々説があるようですが)。
そのうち150万種程度が分類学的に知られていて、うち15,000種のゲノムが読まれているらしい。つまり我々はほんのわずかの生物しかゲノムシークエンスしていない。
もちろん皆さんならゲノムが「読まれた」というのと、ゲノム配列が「わかった」というのが全然別次元の話なのは、言わずもがなですよね。(この辺はマスコミに報道されるときにごっちゃにされるんですよね)


地球上のすべての種のゲノムを読むという「Earth BioGenome Project(EBP)」は、スケールがでかすぎるのか、実現するには10年と47億ドルかかるらしい・・・。
かつて、ヒトゲノム解読プロジェクトが国際チーム V.S. 1企業(セレラ・ジェノミクス社)で競い合いながら、ほぼ同時に完了を発表しました。
その時、ヒトの遺伝子配列が特許になりうるか?という問題が話題になりました。
ヒトゲノムを読むことがビジネスになるかも、という期待があったのです。

今、生命の宝箱と言われるアマゾンで、様々な生物のゲノムを読んで、農業への応用や新薬のシーズ探しをしようという野心的なプロジェクトが進んでいます。
ブラジルに住むペルー人の起業家、Juan Carlos Castilla-Rubio氏は、今なら数多くの種のゲノム配列を決めることも昔ほど難しくないと知っているのでしょう。ゲノムを知ることでそこから生まれるビジネスの匂いを嗅ぎ分けているのかもしれません。

同じようなゲノムプロジェクトはG10KやB10K、確か植物系でも昆虫系でも似たようなものがあります。あえて今からプロジェクトを立ち上げる必要があるのかな、って思ったりしますが。

数十万円~数百万円あれば、生物一種のゲノムは決まる時代。
結局、いろんな人がそれぞれ好きな生物のゲノムを読んで、データをぜーんぶ集めたら知らないうちに地球上の生物全てを読んでいました! 的なオチになるんじゃないかな?