2017年12月8日金曜日

生物遺伝資源のバックアップ施設

今年の分生、神戸の展示会場をうろついていたら、「生物遺伝資源のバックアップ施設」を発見しました。
発見といっても私が知らなかっただけで、5年前からあるみたいですが。

Interuniversity Bio-Backup Project for Basic Biology
IBBPとは、研究者が研究中の生物遺伝資源(DNAとか試料とか生き物全般)をバックアップ保管するプロジェクトだそうです。
地震や火災などで研究所の大事なサンプルが無くなってしまったら大変なので、これらを大切に保管・管理するバックアップ目的で作られたとのこと。
ナショナルバイオリソースプロジェクト(NBRP)と似ていますが、IBBPはあくまで研究途中のサンプルのバックアップが目的。秘密厳守で他者とはシェアしない。
他の研究者がアクセスできる目的のNBRPとはちょっと違うらしいです。

岡崎の基礎生物学研究所内にその施設はあり、バックアップをお願いするためにかかる費用は無料!
送料・手数料もかからないとのことです。
「知っているひとがまだまだ少ないんですよー」
とブースのひとに言われまして、ここで宣伝した次第です。

気になったひとは是非こちらから
基礎生物学研究所IBBPセンター


2017年11月20日月曜日

PacBioとナノポア 違いはここだ! (2017年版)

2017年は、PacBioにとってのライバル、オックスフォード・ナノポアテクノロジーズ(以下ONT)がいよいよ本格的に市場に登場、ロングリード業界に新たな風が生まれました。
(正確には、2016年でもMinIONを購入することはできましたが、誰でも手軽に買えるようになったという意味では2017年が国内リリースの年といっても良いでしょう)

そこで聞くのが、PacBioより長いリードが出てくるとか、バクテリアアセンブリにはONTだけで十分とか、ロングリードはナノポアに席巻されるのでは?という、PacBioに否定的な意見。
一方、ナノポアのデータはまだ精度が悪い、超ロングリードはエラーだらけ、ノートPCではランはできるけど解析はできない、というONTに否定的な意見も。

どちらもロングリードを謳っているだけあって、目的がデノボアセンブリやゲノム構造変異解析、16S解析など、ガチでぶつかるのは当たり前です。
では2017年11月の現時点で、このふたつの製品はどこがどう違うのか?

注!:皆さんご存じ、私はPacBio側の人間なので、これから書くことは多少ともPacBioバイアスがかかっています。そこを承知の上、お進みくださいね。


さて、PacBioとONT、現時点でどこがどう違うのか?

【テクノロジーの違い】単純にいうと
  • PacBio:DNAポリメラーゼがDNAを合成するときに、取り込む塩基に付加されている蛍光を、レーザーによって1塩基ずつ検出する。1つのウェルからは1本の配列データしか出力されない
  • ONT:DNAがナノサイズの穴を通るときに生じるわずかな電位差を検出し、アルゴリズムが塩基配列に変換する。1つのポアから複数本の配列データが出力される
つまり、
  • PacBio:DNA合成を伴う、蛍光色素を使う。レーザー励起エネルギー検出
  • ONT:DNA合成は行わない、蛍光色素は使わない。電位差検出
皆さんご存じの方も多いと思います。

【リード長はどうか?】
  • 平均リード長:PacBioもONTも同じくらい (10kb~20kb)
  • 最大リード長:PacBioは読むライブラリのサイズ、ムービー時間などで制限されるので60kb~100kb程度ではないかと思う。数百kbのリードは見たことが無い。一方ONTは、ポアを通るDNAが長ければ、最大1Mbのリードも出るそうだ
  • しかしリードの本数や分布には注意が必要。PacBioもONTも、短い(とはいっても数キロbpはあるが)リードは多く出力され、長いリードほど出力数は少なくなる。先のONTの超ロングリードも、出力本数でいうと数本
  • 因みにランタイムはPacBioのSequelが30分~10時間、ONTのMinIONが1分~48時間、だそうで。
数値についてはこちらを参照(オフィシャルな情報です)

で、精度はどうか?
生リードとコンセンサスリードで精度の意味は違う。
ここを一緒にして、「ロングリードは精度が悪い」という研究者のなんと多いことか!!

【生リードの精度】
  • PacBio:RSIIのP6C4ケミストリーや今のSequelは、平均86%
  • ONT:精度の数字はケミストリーのバージョンによって様々のようだけど、R9.2は平均80%~85%くらいか(違ってたらゴメン)。でも使うベースコーラーによって精度は変わってくるそうです。ベースコーラーは何種類かある
つまり、どちらも生リードの精度はほぼ同じ、ということになる。しかしもっと重要な点は、エラーの入り方。
【エラーの入り方】
  • PacBioはランダム
  • ONTはランダムという話も聞くが、実は決まった場所に必ずエラーが入るというユーザーのポスターも見るので本当のところはわからない
【コンセンサス配列の精度】
  • PacBio:エラーがランダムに入るので20~30カバレッジでQV50(99.999%)も可能
  • ONT:ONTだけのデータでQV50を達成している結果は私は聞いたことが無い。たいていイルミナデータをエラー補正に使っているようである
とまあ、ここまで読んで、いやそんなことは無い!と思った方もいるでしょう。
あくまでバイアスがかかった私見ですので。
この辺の技術の数字は、すぐに変わる可能性があります。少なくともPacBioは、来年データ量が増える予定なので。この辺はONTとの競争ですよ

【ベースコール】

  • PacBio:装置から出てくるデータは既にベースコール済み
  • ONT:ベースコーラーが数種類あるのでユーザが適切なものを使用してベースコールをかける必要がある

【PacBioしかできない解析】
  • CCS:ライブラリを1分子DNAの単位で何度も繰り返し読むことができ、精度を上げることが可能。Iso-Seq(完全長cDNAを高い精度で読む解析)ができる
【ONTしかできない解析】
  • ダイレクトRNAシークエンス? 今どこまで現実的に使えるのか、知っているひといたら教えてください
【PacBioでもONTでもできる解析】
これはいつくかリストした後に考えてやっぱり消しました。というのは、「できる」という言葉の定義がひとによってさまざまだから。
バクテリアのゲノムアセンブリができる、と言っても、精度99.99%以上でできるというのと、ラフなドラフトでいいからできる、というのとでは全然違う。
HLAなどのロングアンプリコンシークエンスもそうです。求められる精度が6桁なのか8桁なのかで同じく「できる」というべきか。
あと、メチレーションや16SなどでもONTのデータを私は知らないのでできると言うのはやめました。
あと、意外と知られていないことですが、ノートPCにUSB挿してランができるMinIONも、データ解析には普通のサーバが必要です。

それでは技術以外の、それぞれの特徴を考えてみましょう!

【PacBioの特徴】

  • 装置型なのでシークエンスを行う環境が安定している
  • 実験プロトコルが用意されている
  • 解析パイプライン(マッパーやアセンブラ)がほぼ確立されている。これを使っておけば大丈夫的なツールがある
  • グローバルに数百台入っていて、国際プロジェクトにも正式採用されている(例えばG10K(脊椎動物のゲノムプロジェクト)ではPacBio、10XGenomics、Hi-Cのみが正式採用)ので信頼が高い
  • PacBioを使った研究の論文数、学会でのポスター数は圧倒的にONTのそれより多い(これは先行者だからかもしれません。来年が勝負の年かも)
【ONTの特徴】
  • MinIONはコンパクトで持ち運べる
  • 初期投資額が少なくて済む
  • 誰でもどこでもいつでもシークエンス、を謳っているが、「どこでも」シークエンスをするとデータにバラつきが出やしないか?(逆に、誰がどこでランしても一定のデータが出てくるなら凄い)
  • ユーザーコミュニティの中からプロトコルや解析ツールが作られる、ボトムアップなイメージ。NGSは昔からサードパーティのツールがユーザーから作られるものだが、ONTはよりその傾向が強いように感じる
  • バージョンアップのスピードが速い。PacBioもそこそこ速いけれどONTはもっと速いイメージ


と、つれづれなるままに書いてみましたが、いかがでしょうか?
結局はコストだと言われるかもしれませんが、シンプルにランニングコストで比較すればPacBioも負けていませんよ。アプリケーションによっては。

結論!
PacBioやONTのどちらも持っていない場合

  • どうしても自分でランしたくて、ユーザーコミュニティでどんどん聞いて行くのが好きで、インフォマティクスにも強ければONT(ベースコールも何種類かあるのをお忘れなく)
  • 自分でランすることにはこだわらず、安定したデータを早く出したい、インフォを誰かに頼めるか自分でできれば、受託か共同研究でPacBio
  • 限られた予算を無駄なく効果的に使いたければ・・・ (答:     )

PacBioを持っている場合:
迷わずPacBio(笑) これ一本!

以上、2017年11月現在の私の意見でした。

2017年11月10日金曜日

薬草などのIso-Seq論文3本

長年この仕事をしているとたまに、別々の研究者からほとんど同じ研究内容の話を別々にされることがあります。
例えば所属が違うAさんとBさんから、全く同じ生物種の、非常に近い研究テーマの話を、別々にされる。
あれ? もしかして共同研究者? って思ってしまうけれどもそこは要注意です。
とりあえずその場では初めて聞いたふうに取り繕って、後で名前をググって確かめます。

経験上、50%以上の確率でそういう場合は競争相手。
(注:フィールドによって若干その割合は違う。植物系は共同研究の確率高い。動物系は半々。医学系はほぼ競争相手だ!)
守秘義務があるのでもちろん聞いた研究内容は誰にも言いませんが、競争相手同士からほぼ同時に相談あるいは話をされたときは細心の注意を払います。
そんな時は聞き役に徹すべし

さて、ほぼ同時に、薬草を材料にしたIso-Seqの論文が3本出たそうです。
韓国・中国・インド・オーストラリアのチームから。
材料はそれぞれ違うのでかれらは競争相手同士ではないでしょう。

そのうちのひとつ Panax ginseng(オタネニンジン・高麗人参・朝鮮人参)は、異質四倍体の3.2Gbゲノムと結構複雑なんですね。
リピートも多く、読みにくい。
そこでIso-Seqを行って完全長トランスクリプトーム解析を行った。
Jo et al., Isoform Sequencing Provides a More Comprehensive View of the Panax ginseng Transcriptome

組織は4か所から採取
RSIIを使っているので、サイズセレクションをしています。
1‐2kb、2‐3kb、3‐6kb、6kb以上、という風に4区画ですね。
サブリードがトータルで822万本取れています
そこからcDNAをフルでカバーしていて、Isoformごとにクラスタリングして、クオリティも良いものだけをフィルタリングしていくと、
このテーブルの下の数字くらいの数、合計17万4000本くらいになる

ご存じかもしれませんが、Iso-SeqはSequelではもうサイズセレクションをしません。
そのまま全部のサイズのcDNAでライブラリを作り、一気に同じセルで流します。
ここに書きましたので参照下さい

Iso-Seqは、遺伝子のスプライシングイベントを正確に読むことができる、単純かつ素晴らしいアプリケーションだと思っています。
ゲノム配列が完全にわかっていないような生物でも、cDNAの完全長を読めば、ある程度どんな遺伝子が発現していたのかがわかるので、非モデル生物の研究にもかなり使われてきています。
今年はそういった成果が次々に論文になりました。
今の論文なので実験をした当時はRSIIですから、サイズセレクションを必ずしています。
来年あたりはSequelを使った、サイズセレクション無しの論文も期待!

USB接続のシークエンサーなら持ってるよ

巷ではUSB接続のシークエンサーが流行っているそうですねー
私も持ってるよー

ほら


こうして、


ピッと上部を外して、
PCにはめるだけ


出力は8 Gb あります
あ、容量が、8 GBあります

窒素使っていません

使い終わったら返却する必要もありません
これは何度でも使えます

読んだあと、
解析はそれなりのサーバが必要です


すいません
ネタでした

ではまた

2017年11月4日土曜日

増幅無しのターゲットエンリッチメントはCas9を使え!

先月10月のASHGはフロリダ州オーランドでした。
成田からシカゴへ行く飛行機の中、偶然にも隣に座ったひとが、このブログを学生時代から読んでました、というかたでビックリ!
こんなこともあるんだな~、と思いましたね。

いまさら学会報告もあれですが、PacBioのワークショップのビデオ、ポスター、プレゼンテーションが昨日ウェブに公開されたのでお知らせします。

PacBioは今年のASHGで、構造変異解析を前面に持っていきました。
構造変異というのはいわゆるSNV解析よりも大きな、数百塩基やそれ以上の、挿入・欠損・Inversionなどの変異です。
また、リピート配列というのも疾患に関連する変異のひとつです。


ASHGの展示会場にて、CoLabというコーナーがあり、そこで企業がセッションをしていました。分生なんかでも良く見る、あれです。
ここでも紹介されているCRISPR/Cas9 Targeting、これはCas9を応用した増幅無しのターゲットエンリッチメントです。
上のウェブページはこちら

なぜ増幅無しのターゲットエンリッチメントが注目されているかというと、増幅できない配列をエンリッチできるからです。

は、はい。 

という声が聞こえてきそうですが、例えばハンチントン病やある精神神経疾患などでは、CGGやCAGといった3塩基が何十回、何百回も繰り返して、その繰り返しの量で病状が変わることが知られています。


CGGのリピートだと、CGGCGGCGGCGGCGGCGGCGG・・・になるのでもちろんPCRがかからない。

このような配列をエンリッチするには、増幅を介するハイブリベースでは難しい。そこでCas9エンリッチの登場!

ゲノム配列を制限酵素を使って切り、スマートベルを作製し、ベルの中のターゲットとする配列をCas9で切断、切断されたライブラリには第二ヘアピンアダプターをつける。
第二ヘアピンアダプターはほかのペアピンアダプターとは配列が違い、その配列のついたスマートベルだけをビーズで回収する。 
文章に書くとこんな感じです。
スライドはこちらにありますので興味ある方はどうぞ。

Cas9エンリッチメントを行うと

  • PCRバイアスやエラーを防ぐことができる
  • 一塩基レベルの精度でリピート配列全体をカバーできる
  • リピート配列の数を計測できる
  • 違う配列がリピート配列の中に混じっている場合もそれを検出できる
  • リピート配列の体細胞モザイシズムも見ることができる

こちらCas9エンリッチメントは先日論文が公開されました

このCas9エンリッチメントですが、正式プロトコルは来年早々リリースされる予定です。
こうご期待!

2017年10月17日火曜日

植物ゲノムが熱い件(2) ドリアン!

シンガポールの市場をぶらついていると、たまに悪臭が鼻をつくことがあります。
温泉の硫黄の臭いと下水とブルーチーズの臭いのミックスというか、そんな感じの香りを感じたら、犯人はドリアンです!

「果物の王様」
いつか食べてやりたいと思いつつも、あの匂いで食欲がわかないので未だ食べるに至らず・・・。
そういえば、シンガポールの地下鉄には、「No Smoking, No Drinking, No Durian」
って書いてあるんですよ。

そんなドリアン、ドラフトゲノムが読まれました!

シンガポールとマレーシアのチームが、PacBioとDovetailをメインにゲノムを決定!
論文はOPENです

K-mer解析によるとゲノムサイズは約738Mb
153カバレッジのPacBioデータを使ってFalconアセンブリ、そしてFalcon Unzipでポリッシュ。
そのあとDovetailのChicagoライブラリとHi-Cライブラリでスキャフォルディング。
スキャフォルドN50は驚きの22.7Mb!
Bin Tean Teh et al., Nature Gen. 2017
この論文、Falconのパラメータとか、Dovetailサービスを使った場合の論文記載方法とか、その後のDuplicationのチェック方法とか、ゲノムアセンブリをやっているひとには役に立つことがたくさん載っている、と思います。

この論文ではゲノムを読んだあとに、ドリアンの匂いの元、のVolatile sulfur compounds産生に関わる遺伝子の異種間比較解析(コピー数解析)を行っていて、そちらも面白いですよ。
匂い自体は複数の化合物が複雑に合わさってできますが、そのひとつの遺伝子のコピー数がドリアンでは多いらしい。

これを読んだあとはドリアンに挑戦したくなる、
と思ったわけでした。

2017年10月16日月曜日

植物ゲノムが熱い件(1)

10月7、8日に岩手大学の育種学会に行ってきました。
「ゲノム育種」という言葉はNGSの登場前から結構昔から言われてきたみたいです。
親戚に農家もいないし、農学の知識が無い私なりに理解したのは、育種にはどうも、1.収量を多くする、2.病気や環境ストレスに強くする、という2つの大きな目的があるようです。
イネなんかを想像するとわかりますよね。北海道で栽培できる品種はどう考えても寒冷環境に耐性がありそうです。
イネは昔と比べて収穫量が増えたと、中学か高校の教科書で習った記憶もあります。

ですが昔の品種改良は、交配して育ててみないとこの形質が遺伝したのかわからなかったから、手間と時間がかかっていた。
それを今では、ゲノムを読んで有用な形質遺伝を持つDNA配列(DNAマーカー)がわかってさえいれば、交配したあと、個体がまだ小さいうちに遺伝子検査すれば(スクリーニング)どの個体に有用遺伝子が含まれているか、がわかる。
そうしてこの個体を増やしていけば、有用な形質を持った「品種」を効率的に作ることができる。
これを「ゲノム育種」という。

そこで、有用な形質遺伝を持つDNA配列、を探すためにたくさんの育種研究者が日々シークエンスをしている。
んー、あってるかな?

さて、育種学会のポスターで、信州大学のパパイヤの性に関する発表がありました。
オス、メス、両性、の3つの性が普通にあることに驚き!
今度パパイヤを食べるときは友達に自慢しましょう。

植物のゲノム解析は、1.サイズが大きい、2.リピートが多い、3.倍数性が複雑、などの理由でとっても大変。
なのでゲノム配列がたとえわかっていなくても、皆さんいろいろ工夫して(妥協して)遺伝解析をやっているなあ、と実感しました。
でも皆さんならもう、PacBioとDovetailを使えば結構ちゃんとしたゲノム配列が決定できることを知っていますよね?


さて、PacBioのウェビナーの宣伝です。
10月24日と31日に、うれしくも日本時間に合わせて動植物ゲノムアセンブリのウェビナーがあります。
1回目(10/24)
"SMRT Sequencing Applications in Plant and Animal Sciences: an Overview"
by Emily Hatas, Director, AgBio, Vertical Marketing, PacBio
登録はこちら

2回目(10/31)
"Understanding, Curating, and Analyzing your Diploid Genome Assembly"
by Sarah B. Kingan, PhD, Bioinformatics Scientist, Applications, PacBio
登録はこちら



2017年10月4日水曜日

ASHG2017でのイベント情報

すっかり涼しくなってきたな~と思えるときもある10月。
10月と言えばアメリカ人類遺伝学会(ASHG)。
毎年恒例で多くの日本人研究者も集まりますが、今年は特に多い。
場所がフロリダ州オーランドだからでしょうか?

ということで、PacBioのイベント情報をお知らせします。
ASHG学会に行く人も行かないひともぜひチェック!

このページ行けば全部書いてあるんですけど、まとめますね。

ワークショップは10/18(水)の現地時間12時半から
テーマはヒトゲノム構造解析
Cas9を使った配列特異的ターゲットシークエンスを使って脊髄小脳失調症タイプ10のメカニズム解明に挑む例や、大きなゲノム構造変異と知的障害の関係性の研究、1000人ゲノムプロジェクトの最新情報など。
特に1000人ゲノムの発表は、今年HUGOのPresidentでもあるDr. Charles Leeです!
参加はこちらから、学会には行けないけど後で講演を聞きたい!というひとも、レジストして
Not attending. Send the recording
を選択すればOKですよ! (もちろん参加したひとにも録画のリンクが送られてきます)

それ以外の注目イベントはこれ!

10/19 11:00 am-12:30 pmの Concurrent Platform Session “Advances in the Genetics of Autoimmune Disease,”では、“The MHC Diversity in Africa Resource: A roadmap to understanding HLA diversity in Africa,”(Martin Pollard of the Wellcome Trust Sanger Institute)というタイトルの発表があります。PacBioを使ったMHCシークエンスの実例が示されるそうです。

同日午後4:15-6:15の Concurrent Invited Session “Analysis of Cancer Genome Variation Using Long-read Sequencing”では、Dr. Fritz Sedlazeck (Baylor College of Medicine)、Dr. Jacques Banchereau (Jackson Labs for Genomic Medicine) らによるガンゲノムへのPacBioの応用例がこれでもか!と発表される予感。

Dr. Xufeng Zhao、Dr. Mark Chaissonらは、the Human Genome Structural Variation Consortiumを代表して, “Comprehensive Discovery of Structural Genomic Variants Through Integration of Multiple Sequencing Platforms,” というタイトルのポスターを18日の 午後2:00-3:00 のポスターセッションで発表するそうです (Poster #1501).
彼らは最近、3組のトリオの全ゲノムをPacBioで読んで解析し、1000 Genome Projectのショートリードデータ解析よりも10倍以上の構造変異を見つけたとして bioRxiv に発表。この論文はチェックしているかたも多いでしょう。

PacBio社からの注目は、Tyson Clark が “Targeted Enrichment Without Amplification and SMRT Sequencing of Repeat-expansion Disease Causative Genomic Regions” というポスターを18日の 3:00-4:00 pm で発表します。
これが例のCas9ターゲットです!(Poster #1480).

さらにさらに、初日17日(火)の午後1時から4時にあるGenome Reference Consortium (GRC) & Genome in a Bottle consortium (GIAB) Workshop も見逃せませんよ。
ヒトゲノムリファレンスのアップデートが話し合われるとても面白いワークショップです!PacBioのロングリードも大活躍しています。

と、いろいろ書きましたがプレスリリースにも書いてありますので時間がある方はどうぞ。
PacBio関連のプレゼンだけで約30もあるそうです! 全部をフォローするのは難しいけれどできるだけ聞いてきます。


2017年9月26日火曜日

SMRT Link ‐ Sequelデータの解析ソフトウェア

PacBioの解析ソフトウェアといえばSMRT Analysisがあります。
これにラン設定のソフトウェア、データ管理のソフトウェアを合わせてパッケージにしたのがSMRT Linkです。
私も最初、Sequelが出たばかりの頃、このSMRT Linkが何を指すのか結構悩みました。
というかPacBio社の内部でも、SMRT Linkと言ったときにこれが装置操作のソフトを指したり解析ソフトを指したりで結構混乱していたのを覚えてます。
まあ、今でもはっきりしないところもあるんですけどね。

それはさておき、遅ればせながらようやく、SMRT Linkの紹介ビデオが公開されました。
こちらから見ることが出来ます。
どれも3分から5分程度で、きれいな英語なのでリスニングにもいいかも。

CCSやHGAP、LAAなど、使い方がメインですが何となくこんなソフトで解析するんだー、って実感できるかな。
欲を言えば、解析の中身、どういうアルゴリズムで計算するのか、というようなことも紹介してくれればいいのに。というところです。

明日の昼から、Structural Variantのウェビナーがあります。
ギリギリだけど今ならまだ間に合うか?
聞き逃したひとはお知らせください。
録画ビデオリンクをお知らせします。全体公開ならこのブログでも公開。

この1、2週間でいくつも凄いニュース(論文関係)が出ました。
キャッチアップするのが大変なくらい。
次のブログに書きますね。


2017年9月13日水曜日

ナノポアZMWって何?

Twitterやその他SNSで知った人もいるかと思いますが、こんな論文がNature Nanotechnologyから出ています↓
"Length-independent DNA packing into nanopore zero-mode waveguides for low-input DNA sequencing"
はて、ナノポア? ZMW? そしてオーサーの一人はPacBioのCSO(最高科学責任者)?
そうです。これはナノポアとPacBioのSMRT Sequencingの両方の技術を組み合わせた新しい技術です。
どんなものかというと、今のPacBioのSMRT CellにはZMWという微小ウェルがありますね。
PacBio・SMRTシークエンスの良いところはたくさんありますが、唯一の欠点はDNA量。
ナノグラム単位のDNA(ライブラリ)をアプライする必要があります。
これをピコグラム単位にすることは、裏プロトコルはあるにはあるのですが、結構難しい。

単純に言うと、ZMWのウェルの中にDNA‐ポリメラーゼの複合体をロードする効率が悪いからです。
長いライブラリ(例えば20kb)は短いライブラリ(例えば1kb)よりもウェルに入りにくい。これをローディングバイアスという。
マグネティックビーズを使って物理的にロードする方法はRSIIの時代に確立されましたが、それでも効率よくライブラリをウェルに入れるのは今でも難しいものです。

ONTのナノポアには、ポアにDNAを通すため、ガイドプロテインをいうものを使います。
この論文にあるナノポアZMW(NZMW)は、ZMWの底にナノポア(穴)を開け、電圧を使ってDNAをZMWにガイドするそうです。

これによるとかなり効率よくDNAライブラリをローディングできるらしい。
10ピコグラムのDNAでも1分以内にローディングできるとのこと。
20kbライブラリの場合、2秒の電圧パルスの結果、DNAをNZMWに吸着できた。
ローディングバイアスも見られず、1kb~48.5kbまでのライブラリをローディングできたとのこと。
Larkin et al., Fig 2

そこまで言うと、じゃあこれが次のPacBioのバージョンアップ技術になるの?
と思うでしょう?
残念ながらこれはまだPOP (proof of principle)の段階で、すぐに商品化されるわけではありません。と、CSOのJonas Korlachも言っています。
でも実現されれば面白い。装置の改良も必要かもしれませんが。
詳しくはNature Nanotechの論文

またはGenomewebのこの記事を参照ください。

有料記事なので詳細は書きませんでした。ご了承下さいまし・・・
個別にディスカッションしましょうね

2017年9月5日火曜日

Iso-Seq:Sequelでの実力はどれくらいか?



以前、こちらこちらのブログで、「言葉を覚える鳥」ゲノムのことを書きました。
ゲノムを読んだら次は遺伝子発現、ということで、Iso-Seq(完全長cDNAのシークエンス)をやった結果のデータが公式にアップされました。

PacBio公式ブログでの記事はこちら

ポスターはこちらからダウンロードできます。
出たばかりのSMRT Link v5 を使っていたようですね。

データ出力のところを注目してみましょう。
SMRT Cellは4個使っています。
セルごとにバーコードで2種の鳥のサンプルを読んでいます。
Cellあたりの出力塩基数は6.1Gbから7.7Gb、ポリメラーゼリード長のN50はなんと32kb~38kb!
どうです? いや、長さが全てだとは言いません。でもPacBioでもこんなに長いリードが出るんです。
冗談はさておき、サブリードのN50 も5kb台です。十分転写産物をカバーできていると言えるでしょう。

ポスターを見ると、High QualityのIsoformは、Zebra Finchもハチドリも、それぞれおよそ17,000本を得ています。
これは偶然でしょうか? (いいえ)

2種類のサンプル(AとB)を4セルで読むとき、Aを2セル、Bを2セル、というシークエンス方法もあります。
今回はわざわざバーコードを付けて、ABを後から区別できるようにし、2つを混ぜてから4セルで読んでいます。
こうすることで1セルに2種類のサンプルが均等に読まれることになります。
結果、異なるセル間の出力のばらつきがたとえあったとしても、A、Bそれぞれの4セル分のリード数は同じようになると期待できますよね。
これもSequelになって出力が増えたおかげかな?

さて、この解析のところでIso-Seq2もしくはToFU2というのが出てきますが、これはまだ開発版でサポート外です。
今までのIso-Seqとどう違うかというと、主に解析パフォーマンスを上げるためのバージョンアップになります。
SGEを使うのがオプションになったり、クラスターを作るところでBLASRとDALIGNERのどちらかを選べたりします。
Sequelになってデータ量が増えた分、Iso-Seqの解析時間がかかり過ぎていた問題点を、これで改善する目的で作られました。
詳しくはこちらのPDFをご覧あれ
ToFU2: Design Overview より



2017年8月28日月曜日

学会・展示会情報の最強検索ページはここだ!

残暑厳しいですが8月も今週で終わりですね。
秋は学会シーズン! 先生方も、我々企業も忙しくなります。

星の数ほど多くの学会がある中で、それらをまとめたサイトは意外と少ないと思います。
皆さんはどんな学会がいつあるか、どうやって調べていますか?

とあるPacBioユーザの方からお聞きしたのですが、冨島海運株式会社のウェブサイトが結構網羅されています!
冨島海運さんといえば、展示会場で我々企業が展示している実機やデモ機を運搬してくれる輸送業者さんです。
なので冨島さんが担当されない学会は載ってないのですが、それでも結構な数を集めています!

医学系に絞れば、大学病院医療情報ネットワーク研究センター(UMIN)のサイト、学術集会・研究集会等一覧もすごく網羅性が高い。

でも、微生物から植物、動物、メディカル、有名学会から若手研究会まですべてをカバーしているサイトはありそうで無いですね。


さて、私たちはいろんな学会の先生方からスポンサーを依頼されたりするのですが、お断りする大きな理由のひとつはタイミングです。
他の学会と被っていては物理的にダメですが、もう一つ、依頼されるタイミングが遅いとかなり難しくなります。
例えばうちでは、2017年に出展する学会は、2016年12月にはほぼ決定しています。
この業界はわりとそういう会社が多いです。

なので、もしあなたが次の学会の運営担当になったとして、企業からスポンサーを得たい場合は学会開催年の前の年にお願いすると、得られる確率が高くなるかもしれません。

あとこれは個人的な意見ですが、無料オプションとして、

  1. 企業にも発表の場をつくる(セミナーなどで発表できると宣伝効果が高い。ただし、ランチョンは弁当代経費が結構かかるので嫌がる企業が多い)
  2. 学会参加証をつける(企業も最新学術情報を勉強できる)
と、良いかもしれません。
社内的には「私は仕事で行きます。決して学会出張に乗じての飲み会のために行くわけではありません」という理由付けが実は一番大事だったりするので。
この点、NGS現場の会は良いお手本でした。

2017年8月14日月曜日

動物でもゲノムサイズって様々ですね & PacBioセミナー録画

お盆休み。日本民族大移動。おかげで都内は空いてて快適!
今年は東京はあまり暑くないな、と軽く思っていたら、湿度が高いせいでしょうね、危うく熱中症になりかけました。
公園で2時間近くもフリスビーやっていたらそうなるか。

休み中のひとも多いと思うので、軽い話題。
哺乳類のゲノムサイズ、ってどれもヒトと同じくらいって思っていませんか?
私もちょっと前まで、哺乳類は大体3Gb って思っていたのですがとんでもない!
先月のDovetailのユーザーミーティングでリスを読んでいたひとは、ある種のリスのゲノムサイズは6Gbあるって言っていました。

この絵はSNSで見つけました。ゲノムサイズの面白い示し方ですよね。
プレゼンのネタの参考になります。

それにしても、ゲノムサイズが体のサイズに比例しないのは不思議です。
哺乳類じゃないけど、バッタが7Gb以上もあるなんて。
それに比べると、ハチドリは1Gbちょっとなんですね。あんなに激しく羽を動かす鳥なのでエネルギー相当使ってそう。でもゲノムサイズは小さい。

ゾウがヒトより大きいのは何となくわかる。耳と鼻が大きいから(笑)
タコがもっと大きいのは足が8本もあるから(笑笑)
(じゃあイカはどうなんだ? ムカデは?)

ゲノムサイズが大きいと、物理的に大きな核が必要になりますよね。細胞分裂で染色体全部がきちんと分かれてくれない可能性も高い(一部の植物やアメーバなどでは、きちんと染色体がわかれなくても生きていけるものもあるそうですが)。分裂にエネルギーをたくさん使いそう。
そんなリスクがあっても、大きなゲノムサイズを維持するにはやはりそれなりの理由があるのでしょうね。


話題代わって以前、アメリカ東海岸でユーザーミーティングがありました。
そこで使用されたスライドや、一部録画が公開されたのでお知らせします!

この録画は、PacBioのSarahが、二倍体のアセンブリについて、Falconアセンブリのアルゴリズムからアセンブリの評価方法、NCBIへの登録方法について喋ったものです。
こちらから見ることができるのでどうぞ。

スライドはこちらにUpされていますのでご自由にどうぞ。

2017年8月8日火曜日

クリニカルシークエンスで考えること

先週末、クリニカルシークエンスに関する雑誌をちょっと読み、遺伝子検査会社のCEOのインタビュー録音を聞きました。どちらもウェブからの情報です。

雑誌とはこちら、Clinical OMICs 今月号です。フリーで読めますよ。
色々面白い記事がありますが、ざっと見て、自分の興味のある記事だけをつまみ読みしました。
もう一つのインタビュー録音というのはこちら、medelspod.com の、Making Genetic Testing Mainstream Medicine with Sean George, Invitae 
余談ですがたまに、英語の勉強に、と思ってこういうのを読んだり聞いたりしています。
興味のある分野だと頭に入ってくるのが違いますね。ただ、仕事感が半端ないので週末の勉強には向かないかも。

クリニカルシークエンスで皆さん先ず悩むこと、というと思いつくのは、

  • 全ゲノムでやるかエキソームでやるか
  • 偶然見つかった変異(incidental findings)の取り扱いをどうするか
  • 増え続ける莫大なデータをどうさばくか
だと思います。これは世界共通の悩みみたいですね。
まず、全ゲノムを読むかエキソームを読むか問題は、単純にコストの問題だと思います。
いくら1000ドルゲノムとか言われていても(NovaSeqなら100ドルゲノム?)、そのコストを実感するには相当の初期投資が必要。
実際に数千人規模のゲノムプロジェクトでは、数十人~多くても数百人を全ゲノムで深く読み、残りの数千人は薄く読む、ということが行われていると思います。これはコストの問題です。

臨床に用いるためには深く読む必要がある、と思いますが、それには日本円で数十万円以上かかるでしょうし(もしかしたら100万円以上?)とても保険では賄えきれない。

そこで現在、より一般的に読まれているのがエキソーム。
これなら安価に深いカバレッジを読むことができる。
しかしもちろんエキソームは遺伝子のコーディング領域しか読んでいない。

Incidental findings も大きな問題で、例えば、ある疾患の検査で患者さんが自分のゲノムを読んだとする。そして、その疾患の原因遺伝子型がわかって、適切な治療方法も選ぶことができた。
でも同時に、別の疾患のリスクも高いことがわかってしまった。この新たにわかった疾患の治療方法は現在まだ無い。死亡率も高い。さて、この事実をドクターは患者さんに伝えるべきか否か? リスクがどれくらい高ければ伝えるべきか?
検査対象でもなかったのに、不治の病を突然告知されてしまう不安は、人それぞれだろう。僕は知りたくない。知ってしまったら生命保険にも入れなくなってしまうだろうし。

パネルシークエンスなら知りたい病気の遺伝子だけ調べてもらえる。そんなニーズ?もあるだろうからこれもクリニカルの現場では人気が高い。

以上は主に、ショートリードシークエンスの話。
ロングリードをクリニカルシークエンス、ヒトゲノムの変異解析に応用しようという動きは今年大きく動いています。
なぜかというと、ショートリードでとらえきれない変異でも病気に関連する変異(多くは数百bpのInDelや、繰り返し配列、さらに転座やSegmental Duplication)が多く見つかってきたから。
もちろん、病気に関する変異の全てを見つけることは、現在はまだ不可能なので、「変異の何%を見つけた」と言うことはできないという。

さて、これからゲノムデータはどんどん増えていくことでしょう。
一説には、2025年頃までには、ヒトゲノムのシークエンスデータ保存に必要なストレージ容量は、2~40エクサバイトになるそうです(Natureのこちらの記事
YouTube、Twitterでアップされるデータ量を遥かにしのぎ、天文学で使われるデータ量をもしのぐとのこと。

エクサバイト、ってペタバイトの1000倍だから、そう考えると大したことないな。
このNatureの予想は2015年だからそんな古くはないけれど、もっと、ゲノムデータ以外のフェノタイプ的アノテーションデータ(何だろう、動画かな?心電図とか)がパーソナルゲノムデータに付随してそれこそひとりのパーソナルゲノムデータが1ペタとかになるんじゃないか、って妄想した週末でした。

ちなみに、「エクサバイト:服部真澄 角川書店(ISBN-10: 4043944187)」というSF長編小説がありますがお勧めです。10年くらい前の小説ですけど今でもいけると思う。
クリニカルシークエンスとは直接関係ありません。念のため。


2017年8月4日金曜日

PacBio 2017年後半戦が見通し明るいそのわけとは?

これを書いている今日は8月4日、昨日のPacBioの株価は前日比で14%も上昇しました。
こういう時は何かニュースがあったのでとりあえず本社のサイトやSNSをチェック!

アメリカ時間で8月2日に第二四半期の発表がありました。
CEO自らが投資家向けにプレゼンする場で、これは録音されて、翌日には誰でも聞くことができます。 一応、視聴するには登録が必要

数字については、私はその辺(アメリカ企業の経営に関する数字)は詳しく無いので評価できません。
でも、悲観的か楽観的かというと、明らかに楽観的な見通しでした。
このプレゼン時間の半分以上が投資家からの質疑応答になるのですが、厳しくは無かったです。

で、良いニュース(これが今回の株価14%UPにつながっているかは不明)はこちらです。

  • 装置の売り上げは顧客のバジェットタイミングによるので不安定だが、試薬売り上げはSequel台数が増えるにしたがって着実に増えている
  • 中国のNovogeneがSequelを10台追加で注文(これで20台購入!)するなど、中国の売り上げが堅調
  • Sequelの新ソフトウェア version 5 のアップデートが始まり、テストデータはとても良い
全世界でRSIIとSequelを合わせると、現在300台以上が導入されています。
この数字は5月のものなので、最新ではもっと行っているはず。
装置が増えればそれに伴い試薬の購入も増えるわけですが、この傾向はシークエンスラボで顕著だそうです。

どういうことかというと、一般のアカデミアは、プロジェクト単位でシークエンスが行われるので、プロジェクトが終わると一息つくことが多いですね。
日本以外でもこれは同じで、プロジェクトごとに予算が付く。そうすると、それが終わったとたんにシークエンスしなくなる。

ところが、営利企業やシークエンスコアラボでは、ひとつのプロジェクトに左右されないので通年シークエンスされるとのこと。
日本でもまあ、そんな感じでしょうか。年度末は忙しい、というバラつきは多少あるでしょうが。

中国のNovogeneという会社、これは世界最大のシークエンスラボのひとつです。
ここ2年くらいで、PacBioの最大の顧客になりました。
Sequelを10台保有し、さらにこの度もう10台の購入を決定! 世界一、Sequelを保有する機関になりました。
彼らがなんでこんなに(20台も)Sequelを買ったのかというと、ロングリードに積極的に投資しているからです。ちなみにここには政府系の投資会社もお金を出しているそうです。
Novogeneでは、中国人ゲノムを1000人分読み、構造変異を解析し、世界初の構造変異データベースを完成させる、という壮大な計画があります。
ここに、Sequelが使われるのです。
さらに、Novogeneはシークエンス受託解析企業なので、世界中から顧客を集め、世界一のシークエンス受託会社になることを目指しています。
そんなこんなで今、PacBioのRevenueの25%は中国から得ているそうです。

中国だけでなく、世界の営利企業は積極的にSequelに投資する傾向にあるそうです。

HistogeneticsというアメリカのHLAタイピング企業は、ショートリード数十台に加えてRSIIが動いています。もちろんSequelも。
これは、HLA遺伝子の完全シークエンス(ショートリードでどうしても型が判定できないような難しいローカスのシークエンス)のためにPacBioのロングリードが絶対必要だ!ということで、アグレッシブにRSII、Sequelが使われているそうです。


これらの発表がもしかすると、昨日の株価14%アップに影響したのかな?

PacBioは、先月Sequel用に、これは解析ソフトと装置のソフトの両方で新しいソフトウェアをリリースしました。
昨日のCEOのプレゼンでは、このソフトが順調に動いていて、ある顧客では平均リード長33kb、またある顧客では1セルあたりの出力が15Gbに達したと言っていました。
まあ、これは極端な例でしょう。
実際は、良くて平均12kb、N50 で20kb、塩基出力も良くて10Gb くらいかな、という感じです。
でも2017年の末には、わかりませんよ。

CEOははっきり言っていました。
2018年末までには、今の8倍のウェルを持ったセルが登場し、新試薬などで今よりスループットが30倍Upすると。

2017年7月13日木曜日

gVolante でアセンブリを検証したくなるこれだけの理由!

Dovetailの話を数回にわたって続けましたが、ゲノムアセンブリを評価するとき、私もついN50 の値を比較してしまいます。
PacBioを使ってコンティグN50が数メガbpに達した!とか、
Dovetailを使ってスキャフォルドN50が何倍になった!とか。

でもこれは長さを評価する指標にはなりますが、アセンブリが正確にできているか、Completenessを評価するには別の指標が必要です。

アセンブリした結果の配列に、コアな遺伝子(代表遺伝子)がどれだけ含まれているか、そういった解析をする必要があるわけです。

ゲノムアセンブリの論文を読んだことのある方は、BUSCOとかCEGMAとかいう解析で、「Completeが何%、Fragmentedが何%、だからこのアセンブリはまずまず良い」なんていう文章を読んだことがあるかもしれません。
特に真核生物で、新しくゲノムを決めた、みたいな論文では必ずと言っていいほど。

このような解析を、GUIで簡単に解析できるツールが gVolante(ジーボランチ)です。
神戸理化学研究所の工樂さん、西村さん、原さんらの論文も、先日Publishされたそうです こちら

コンティグ/スキャフォルドN50の値が長ければ、それだけ連続配列が良く読まれている、と想像できます。ゲノム中にリピートが多くてかなりフラグメント化されていても、遺伝子の配列部分はそれなりに読まれているのではないか?
自分のアセンブリ結果は、どれだけの遺伝子を含んでいるのか?
そんなことを手軽にチェックできるのが、このウェブベースの簡易ツール「gVolante」

BUSCO、CEGMAの遺伝子セットのほかに、彼らが独自にまとめたCVG: Core Vertebrate Genesというのも脊椎動物評価用に使用できるようです。

使い方はとても簡単で、ゲノムアセンブリの結果FASTAファイルを、ウェブからアップロードして、「Upload File」ボタンを押す
数分待ってアップロードが終わったら、解析メニューを選びます
(私はデモサンプルにNCBIに登録されていたナメクジウオのゲノムアセンブリを選んだのですが、間違えてNon-vertebrate を選んでしまった! あれって原始的な脊索動物らしいですね。もうちょっとわかりやすい例を選べば良かった。。。 とはいえ、どんな風に動いて結果が出てくるのか、はわかりますよね?)

解析によって完了する時間は異なります。
私の場合、ナメクジウオゲノムアセンブリのCEGMA解析で、1日くらいで結果が出ました。
リンクをクリックすると・・・
素晴らしい。きれい!

結果はしばらくするとサーバーから削除されるそうなので、ダウンロードすることができます。
データは暗号化されてアップロードしたあと、すぐに削除されるらしいので安全です。

トライアルするならちゃんとサンプルを選びましょう、という教訓を得ましたが、自分でアセンブリしているデータがあるなら是非お勧めします!
お金かからないし、論文も出ていますので引用もできますし、何より簡単。
今のドラフトアセンブリのチェックと、これからスキャフォルドするかどうか迷っているひとにお勧め!

2017年7月10日月曜日

Dovetail Genomics ユーザーミーテイング報告 その 4  今日は昆虫

Dovetailユーザーミーティングレポートも今回が最後です。
今日は昆虫

昆虫は地球上でもっとも繁栄した種だと思います。
私は子供の頃は昆虫少年で、よく近所の神社や畑で虫を取ったりしていたので虫は全然平気なのですが、今の子は小さい虫でも怖がりますね。
セミやカナブンも怖がるので残念無念。

さてさて、ゲノムが読まれている昆虫は、何らかの形で人間と関わりが深いものです。
産業的には害虫や益虫のゲノムが良く読まれ、医学的には危険な病気の宿主も読まれていると思います。外来種や環境に大きな影響を与えている虫もそうかな。

そんな中、害虫として読まれている例として、Rhyzopertha dominica がありました。
和名はコナナガシンクイムシ。この甲虫は貯穀害虫と言われていて、収穫後の穀物を食べる害虫だそうです。
アメリカではこの害虫を除去するために、収穫後にも大量の農薬を撒いていて、この農薬の量は半端ないそうですよ。
できるだけ農薬量を減らすために、この害虫の性質をゲノムから明らかにしようというニーズはあるそうです。
こういうところはアメリカのアグリ系・農薬系巨大企業がいかにもやっていそうですね。

ただ、一般的に昆虫はリピートが多いそうです。
PacBioで読んでCanuでアセンブリして、MiSeqなども加えてスキャフォルディングしたあと、Chicagoデータを加えて一気につなぐということをしていました。

もう一つはピュアサイエンスから。
100x100プロジェクト、って知っていますか?
私も初めて聞いたのですが、スタンフォード大学で進めている、ショウジョウバエ100系統を、1系統につき100匹ごと、ゲノムを読むという計画です。
すでにパイロット的に10~20系統くらい、PacBioとONTで読んでいるそうな。
ググっても出てこないのでもしかしたらまだ公開されていないアレかもしれません。
でも拡散OKの発表だったので、書きました。

さてさて、日本でもDovetail関係の問い合わせが最近増えてきました。
植物、哺乳類、昆虫、魚類、微生物・・・
もう少ししたら、公開できる結果が日本からも次々出てきますよ。
ゲノムアセンブリはまだまだ成長が期待される市場です、って実感したユーザーミーティングでした!


2017年7月7日金曜日

Dovetail Genomics ユーザーミーテイング報告 その3

さてDovetail Genomicsのユーザーミーティング報告、今回は動物に注目!
ゲノムを読む必要がある動物とはどんなものがあるのかな?

真っ先に思い浮かぶのが、畜産に重要なウシとかブタとかチキンとかですね。
その辺はもちろんゲノムプロジェクトが進んでいるのですが、今回報告するのは意外な生物とその意外な理由。

今40代の方は記憶にあるかもしれませんが、私が子供の頃毎週見ていたテレビ番組に、「わくわく動物ランド」というクイズ番組がありました。
そこで登場するのは主に野生生物。その中でも私は爬虫類が大好きだったのですが、今回のDovetialユーザーミーティングでも、爬虫類のゲノムには特に惹きつけるものがありました。

先ずは、アメリカンアリゲーター
フロリダ州の河に住む大型のワニです。
アメリカンアリゲーターの面白いところは、性の決定が卵の時の水温で決まるそうです。
摂氏33度ならオス、31度未満または35度以上ならメス、33度でもエストロゲン過多の環境ならメスが生まれるらしい。
ということは、オスとメスはゲノムが同じ。しかしオスは活動的なのに対し、メスはあまり動き回らず一か所にとどまる傾向があるそうです。
このように性決定が胚の時の温度で決まる生物はほかにもありますが、そのメカニズムは良く分かっていなかったそうで。
そこでゲノムを読んでそのメカニズムを明らかにしよう! というわけです。
論文はもうありますので詳細を知りたいひとはこちらからどうぞ

ところがこの研究、野生のアリゲーターの卵を取りたいということで、そのサンプル採取がとってもユニーク。
ヘリコプターでアリゲーターの巣に舞い降り、母親アリゲーターの目を盗んで卵を採取するというもの。
命がけらしい・・・。

さて、次の爬虫類は、Tuatara
これなんだかわかりますか?
ああ、あれね、とわかったひとはかなりの爬虫類通
ヒントはニュージーランドと恐竜

和名はムカシトカゲ

まだピンと来ませんか?

私が子供の頃、恐竜が好きだったのですが、その恐竜の生き残りとされている爬虫類です。
まあ、そのころはまだ、恐竜は鳥に近いなんてことはわかっていなかったので生き残りというのは言い過ぎですが。
でも今でも、生きた化石シーラカンスと並ぶくらい、ジュラ紀からほとんど進化していない生物と言われているそうです。
昔はニュージーランド全域に生息していたらしいが今はごく一部、気温16度~21度の環境に残るのみ。絶滅危惧種です。
すごいのは、100年~200年とみられるその長寿。
ゲノムサイズはヒトより大きく4.2Gbとみられています。
ゲノムを決定したら、その免疫機能や性決定のメカニズム(温度で決定される)、鋭い嗅覚の秘密、長寿の秘密、などを明らかにしていきたいとのこと。


哺乳類では、冬眠するリス。
冬眠状態に入ると、心拍数は200-300bpm→5-10bpm、代謝機能は1~3%に、呼吸数も1~3%に、体温も37度→4度へと著しく低下するらしい。
ゲノム配列は深いカバレッジで読まれているがフラグメント化されていて、もっと繋げる必要があったので、Dovetailで大きく改善させたとのこと。
これも面白い話だった。

でも何といっても、私が一番興味をひかれたのは、サンディエゴ動物園が行っているFrozen Zooプロジェクトの話。
動物園というのは、動物の展示以外にも、種の保護や絶滅が危惧される種を後世に残す使命がある、と。
確かにそうです。動物園の役割は昔とは違ってきているでしょう。
例えばアメリカンコンドルは、個体数が非常に少なくなっていて、近親交雑の結果重篤な遺伝病(chondrodystrophy)を発症することが知られているらしいです。
このような種を保存するにはゲノム解析が必須で、どこまで病気を予防して個体数を維持できるかが問われているそうです。

また、シロサイの亜種であるキタシロサイは、アフリカになんとたった3頭しか生存していない!
そしてもはや交配するには年を取りすぎていて、近く絶滅することが確実です。
そこでサンディエゴ動物園のFrozen Zooでは、キタシロサイの体細胞からiPS細胞を作製することに世界で初めて成功。そのiPS細胞の株を冷凍保存しています。
もちろんゲノムも読んでいます。
将来的にはそのiPS細胞からキタシロサイのクローンを作る計画とのこと。

一見SFのような話ですが、アメリカではこのようなプロジェクトにちゃんと予算が付いていて、キタシロサイクローンプロジェクトは実際に動いています。
これ以外にもFrozen Zoonでは、地球上の絶滅危惧種を1000種以上、計10,000個体から細胞を採取またはセルラインを作り、冷凍保存しているそうです。
現代版ノアの箱舟といった感じですね。







2017年7月5日水曜日

Dovetail Genomics ユーザーミーテイング報告 その2

Dovetailのヘビーユーザーさんたちは、どんな生物のゲノムをシークエンスしているのでしょうか?
となりのゲノムシークエンス、気になりますよね。

発表内容はあまり詳しく公開できないので、サマリー的なこと、私が個人的に「へー」って思ったことを書きます。

【植物】
さすが農業大国アメリカ。農産物は大概ゲノムを読まれています。
といっても難しいゲノムはあるわけで、今回発表があったのは、レタスとかピスタチオ、ブドウなどの2倍体がメイン。
レタスはそうとうしっかり読まれています。PacBioを使ってコンティグを作り、Dovetail ChicagoとHi-Cを使ってスキャフォルドを伸ばし、10Xを使ってフェージング、連鎖解析できれいに仕上げる。
先日のDovetailウェビナーにも登場した、UC Davisの Dr. Richard Michelmoreは、本当にゲノム読むのが好きだそうで、すごい楽しそうに発表していました。

ブドウといえばワイン。先日もFalcon Unzip の記事で書きましたが、UC Davisの Dr. Dario Cantu によるカベルネ・ソーヴィニョンのゲノムアセンブリの話。
この品種はF1品種だということは先日のブログでも書いた通りです。
ちなみに白ブドウのChardonnay(シャルドネ)はPinot Noir(赤ワイン用でも超有名)とGouais blanc(白)の掛け合わせF1品種。知っていたアナタは相当ワイン通です。
さて、ワイン用のブドウは他の農産物と違って、新品種を作ることはあまりしないらしい。昔から同じ品種を接ぎ木でクローンを作って増やしている。
なぜか?

それは、ワインというのは、世界中で共通して、名前で売れる商品だからです。
どんなに素晴らしい品種を新たに作っても、全世界のマーケットに浸透させるには莫大な手間とコストがかかる。
じゃあゲノムを読む必要は無いんじゃないか? と思ったんですが、クローンでも産地によってゲノムはだんだん異なってくるので、香りとか環境ストレス耐性とかに関係する遺伝子を知ることは、クローンごとの特徴を明らかにするためとても大事らしいです。

ちなみにDarioさんは数年前、新婚旅行に東京と京都に来たほど日本が大好き。
話していて楽しいひとでした。

倍数体のゲノムはどうでしょう?
これはPlant Animal Genomics学会でも発表がありましたが、倍数体にもモデル生物はあります。
Brachypodium hybridum という草は、異質4倍体 (2n=30, 509Mb)。
これはB. distachyon (2n=10, 272Mb) と B. stacei (2n=20, 234Mb) という2つの2倍体の種が進化の過程で合体?して4倍体になったらしいです。
この辺は発表者のDr. John Vogel の論文で詳しく書かれています。
ゲノムをアセンブリする際に、Meraculousというアセンブラーを使っています。
これはDovetail社でドラフトアセンブリする際にも使われているDiploid awareなアセンブリです。

さて、次回は哺乳類など。
お楽しみに

2017年7月4日火曜日

Dovetail Genomics ユーザーミーテイング報告 その1

今日は少し、Dovetailのユーザーミーティングに参加した報告をしたいと思います。
時々PacBioの話題も出てきますよ。

開催された場所は、カリフォルニア州サンタクルーズにあるリゾートホテル。
海外の会社はユーザーミーティングを、ホテルに泊まり込みで2日間とかで行うことが多いですね。

前日は夜にレセプション。初めて会う人がほとんどなので、お酒の力で先に何人かと仲良くなっておくことは良いことです。日本でもやったらいいかも。
準備しているのはロジ担当のニッキー
後ろではもう飲みが始まっている(時刻は午後7時くらい?)
ホテルは街の中心からは離れていて、森があったりして自然豊か!
わかりにくいけどホテルの一部
この先200m歩いていくと会場がある。
同じホテル内なのにめちゃ広い
ホテルの裏にある、自由すぎるハイキングコース
野ウサギも普通にいるほど自然豊か
当日は朝食をみんなで一緒にとってから、9時から開始。
そうです。2日間みんなと共同生活なんです。
でもそこはアメリカ人。皆さん時間には自由です。

会場のテーブルはこの形
Dr. Ed Greenによる発表
彼はDovetailのFounderのひとり
10名くらいのユーザから、いろいろな研究・プロジェクトの発表がありました。
皆さん、Dovetailを使ってはいますが、それ以外のテクノロジーも当然試しているわけで、多かった順にあげると、
  1. イルミナショットガン (これは当たり前というか、みんなドラフトでやっていた)
  2. PacBio RSII(発表者のほぼ全員が使用。Sequelデータはまだ登場せず。これからでしょうね)
  3. 10X(価格が安いからとりあえず10Xで試してみるという意見が多かった)
  4. MinION(最近使ってみた、という発表が1人)
  5. BioNano(発表では無かったけれどQ&Aの時に話したひとが1人)
それぞれの技術の長所短所は、このブログを読んでいる皆さんならご存知でしょう。
10Xのランニングコストが安いというのは、恥ずかしながら知らなかったのですが、アメリカの非モデル(特に植物)ゲノムアセンブリ業界?では、とりあえず安いから10X試す、というのが定石らしいです。レタスゲノムの先生もそう申しておりました。

ユーザーミーティングでどんな発表があったのか。
続きは「その2」をこうご期待!

2017年7月3日月曜日

PacBioが存在感を見せた! 今年の国際ゲノム会議 





先週、6月27日から29日までは、2年に一度の国際ゲノム会議がありました。
この「会議」は、いわゆる学会(200~300人くらい?)で、ゲノム関係の学会としてはコンパクトにまとまっていて、テクノロジーとサイエンスが半々くらいのワークショップ、という感じがします。
この業界のそうそうたる先生方が参加されるので、出展する企業側としても効率良く営業活動ができる。

アカデミアの発表は、ポスターも含め、今年はPacBioのロングリードが目立っていましたよ。
確実に2年前よりも、ロングリードを使ったゲノム解析、メタゲノム解析、メディカルへの応用などの発表が増え、存在感が大きくなってきた気がします。

トミーデジタルバイオロジーからは、招待講演者としてMount SinaiのDr. Bobby Sebraを呼び、
Emerging Long Read and Single Cell Genomics Toward Highly Resolved Medical Genomics and Clinical Research
という内容で、彼らが実際にラボで行っている、ロングリードを使ったクリニカルアプリケーションへの試みを中心に話してもらいました。

また、テクノロジーセミナーでは、PacBioのCSO、Jonas KorlachがSMRTテクノロジーの今の使われ方と他のテクノロジーとの比較、今後の方向性について発表しました。
この話は先日のウェビナーとほぼ同じです。
聞きたい、というかたは録画したリンクをお伝えしますのでお知らせください。

アカデミアからの発表でも、ゲノムのメチレーションをPacBioで読んだという話や、セントロメア領域を読んでいるという話、ゲノムのリピート部位をロングレンジでキャプチャーするという話がありましたが、そんな中、ベストポスター賞を取ったのもPacBioを使った発表でした。

東京大学の西嶋傑さんは、PacBioのSMRTシークエンスを使って、Gut Microbiome のメタゲノム解析を発表され、見事ベストポスター賞を受賞されました!
論文投稿中ということで、ここでは内容には触れませんが、これはまさにPacBioだからこそできた研究です。
Jonas(PacBioのCSOのことですね)も、とっても喜んでいました。

さて、この勢いを保ったまま、今年も後半戦。
頑張っていきます!

2017年6月15日木曜日

New Maize Reference Genome 出た!

問題です! 
世界三大穀物といえば、コムギ、コメ、そしてトウモロコシですが、
このうち、一番生産量が多いのはどれ?



正解はトウモロコシ
アメリカ農務省のレポートWorld Agricultural Supply and Demand Estimates 2017年6月版によると、2015/2016年確定値では全世界の生産量は、
コムギが 7億3700万トン
コメが 4億7200万トン

トウモロコシはなんと、9億6800万トン(2016/2017年推定値は10億6700万トン!)で断トツ1位。
うちアメリカは3億4600万トンを生産し世界一。
そのほとんどを国内で消費し、4800万トンを輸出しているらしい。
輸出量もアメリカが世界一(2016/2017年推定値は5600万トンだそうです)。

余談ですがこの報告書は、世界最大の農業大国アメリカが、世界の主要農産物についてまとめた統計報告みたいです。私も検索していて見つけたのですが、非常に細かくて驚きました。
もう一つ、日本語のサイトとしては、農畜産業振興機構の海外現地報告がとても情報量豊富です。
トウモロコシではここの「米国におけるトウモロコシ生産の現状」が読んでいて面白かった。
アメリカ国内で、トウモロコシはそれまで飼料用途が一番多かったが、2005年ごろからバイオエタノール用途が急増(法律で一定以上のバイオエタノールを販売することを石油販売業者に義務つけられたため)、今は飼料用とエタノール用が同じくらいらしい。
後はスターチ、食用ですね。でもこれらはほんのわずか(10%未満)。

前置きが長くなりましたが、トウモロコシゲノムが新たに解読され、前のリファレンスよりかなり改善されたバージョン4が、Natureに発表されました。
Improved maize reference genome with single-molecule technologies

これはもちろん、PacBioを使って読んでアセンブリした素晴らしい成功例です。
RSIIのときの仕事です。
B73系統のゲノムDNAは15kb~40kbにシェアリングされ、20kbプロトコルでライブラリ作製。
試薬はP6C4を使用し、6時間Movieでシークエンス。
65カバレッジ分のデータを得て、FalconとPBcR+MHAPのアセンブラーでパラメータを変えながらいくつかアセンブルをしている。
得たコンティグは、Irys(BioNano)のオプティカルマッピングデータに合わせて、スキャフォルディング。
さらにBACデータも使用してPseudomoleculeを作っている
出来たScaffoldのギャップは、もちろんPacBioのロングリードでできるだけ埋めている(PBJelly)。

この仕事の凄いのは、コンティグN50をこれまでの52倍長くしてメガベースにしたのもさることながら、連続配列として、トータル1.2Gbのレトロトランスポゾンの存在を明らかにしたこと。
その約半数は、他のトランスポゾンの中に挿入された「入れ子」状であったという。
これは私の想像ですが、トランスポゾンって、案外ランダムに入るわけでは無いのかもしれませんね。
一度入ったトランスポゾンの中にわざわざ入り込んで、その働きを邪魔するトランスポゾンがあったりして。
何のためか、はわかりませんよ。

ただひとつ、このゲノムプロジェクトで残念なのは、DovetailのChicagoやHi-Cを使っていないこと。
これらを使えばもっと早く結果が出ていたかもしれないし、宣伝に使えたのに(はい、私の都合です)。

この仕事、論文になる前にPacBioとBioNanoのケーススタディとして昨年公開しています。
こちらからダウンロードできるので是非どうぞ。