2014年9月25日木曜日

interdisciplinary な環境がイノベーションを生む


ナノポア、といえば真っ先にOxford Nanoporeが頭に浮かぶひとも多いでしょうが、ナノポアとはナノテクノロジーで作る穴、の一般名称
Oxford Nanopore以外にも、日本ではクオンタムバイオシステムズとか日立ハイテクノロジーズとかが独自、あるいは海外の会社と共同で開発している。
し か し、

今日紹介したいのは、米国・ボストンにあるNortheastern University

ここのLarkin博士らは、PacBioと共同で、SMRT CellのZMWに小さな穴「ナノポア」を開けて、微弱な電圧をコントロールすることで、DNAを可逆的にローディングし、スループットを飛躍的に向上させる可能性があることにR&Dレベルで成功した。
回りくどい言い方だが、そう、彼らはローディングをUpさせることに成功したのであって、シークエンススループットがUpしたとは言っていない。まだ。
次のチャレンジだ、と言っている。

Reversible Positioning of Single Molecules inside Zero-Mode Waveguides
J Larkin et al., (2014) Nano Letters DOI: 10.1021/nl503134x

彼らは、ZMWの底、直径70nmの面に(これがガラスではなく窒化ケイ素の膜になっている)、TEMで2.5~4 nmの穴を開けた。
そして、ビオチンのついたDNAと、蛍光ラベルされたストレプトアビジンたんぱく質、これをひとつのNZMWに投入、電圧を操作した。
高電圧下では、ストレプトアビジンはDNAから離れ、電圧を逆にすると、ストレプトアビジンたんぱく質-DNAの複合体はNZMWから放たれた。

さらに彼らは、8つのNZMWに、DNA-ストレプトアビジン複合体を流して、電圧を操作すると、8個中5個のNZMWから蛍光を検出した。
つまり62%のローディング効率、(我々の専門用語では「P1が62%」という!)

8個中5個で62%ねえ・・・。

今のマグビーズローディングでは、大体、20%~良くて50%といったところ。
平均は30~40%かなあ。
62%は確かにローディングの数字だけを見ればすごい。
しかしまだ、これはDNAを読んだわけでは無いし、15万の全ZMWを対象にした話でも無い。

技術としては面白いと思いますよ。
物理の得意なひとは、論文読んでみてください。
実用化したら、DNAは今の半分の量で済むかもしれない
DNA分子の動きをコントロールできれば、もっと効率的にシークエンスできるかもしれない
ああ、そういえば、DNA分子の動きをコントロールすることが、ナノポアシークエンス技術の最も難しいところだと、昨年京都の一分子DNAシークエンサーシンポジウムで何人も言っていたなあ。
DNAは3次元の構造体だから。


しかし、世界には面白いことを思いつくひとがいるんですね。
半導体やナノテクの技術者からは、生物やっているひとには想像も付かないアイデアが出てくるのかも。

interdisciplinaryという言葉を知っていますか?
日本語では、「多分野にまたがる」、「諸学連携」、という意味です。
色んな分野の専門家が集まったほうが、イノベーションを生むんですよね。
企業もそうであるべきだ、と最近思います。

最後にこの、Nanopore ZMW、略してNZMWは、もちろんまだ製品化されていないし、予定も無い、そうです!


2014年9月21日日曜日

プラズミドが先か、耐性が先か

先日、ひさしぶりに新宿歌舞伎町で行ってきた。
さすがは日本一の繁華街! 
街頭スピーカーから聞こえてくる内容は、
「路上で声をかけられて、ついて行ったら、必ずボッタクラレます」
と、何とも過激なアナウンス!

もちろん我々は安全な居酒屋(樽一;食べログ)に行きました。
ここは旨かった! 
店員がいい感じ


さて、今日はPacBioのロングリードが医学関連研究に使われていた例をひとつ

Beatson et al., Science. 345, 1454-1455 (2014).

細胞壁のある病原菌に対して、ペプチドクリカン構築を阻害することで、殺菌作用を示す抗生物質があります。
このひとつ、カルバペネム系抗生物質に対して、耐性を持つ病原菌のゲノムをPacBioで読んで、プラズミドが大事な働きをしているかもしれない、とわかったのがこの論文。

S. Conlan et al., Sci. Transl. Med. 254, 254ra126 (2014).

Conlan氏らは、1000人以上の肺炎患者さんからカルバペネム系抗生物質耐性の肺炎桿菌を調べ、bla-KPCという、カルバペネム系抗生物質を加水分解してしまう遺伝子が含まれるプラズミドを、PacBioを使って配列解析した。

患者さんや病院のシンクなどから採取した病原菌から、63種類のプラズミド配列がコンプリートされ、今までのショートリードではわからなかった、ゲノムの複雑性が明らかになったそうな。
同じbla-KPCを持つプラズミドがあると同じような耐性を示す。
ISEcp1というモバイル遺伝子は、ゲノムに入ると抗生物質耐性遺伝子を複数コピーしてしまう。

バクテリアのゲノムは、プラズミド遺伝子によって大きく影響を受けるんですね。
一種の共生関係。
バクテリアがプラズミドを利用しているのか、プラズミドがバクテリアを利用しているのか
しかし、抗生物質の耐性がプラズミドの遺伝子によるならば、医学が戦う相手はプラズミドなのかもしれない、そんな風に思ったりもします。



2014年9月17日水曜日

Mount Sinai Opens New Genomics Lab

Mount Sinai といえば、今年の5月、「PacBio現場の会」でゲストスピーカーとして招待した Dr. Robert Sebra、覚えていますか?
彼のインタビューがフライヤーになりました!
こんな感じ
展示会などで配られるはずです。


そしてMount Sinaiからまたひとつ新たなニュースが飛び込んできました。
こちらの記事ご覧ください。
先日Genome WebでPremiumユーザでないと見れない記事が、もうオープンになっていました!


Icahn Institute at Mount Sinai では、新たに遺伝子診断用のクリニカルラボを建設中です。
Roche454があった建物らしいです。
そして人間も、Roche454から引っ張ってきたと書いています。

彼らがターゲットとするのは、がんを含む様々な疾患。 
700の疾患関連遺伝子をターゲットに、26,000のアンプリコンを、Ion TorrentのカスタムAmpliseqを利用してパネルを作製しているとのこと。
カスタムAmpliseqを自由に設計(Life Techによれば設計自体は無料とのこと)できるのは素晴らしいですよね。

この記事に出てくる、Mr. Glenn Farrell、彼も5月にBobbyと一緒に来日しました。
なので早速メールしたところ、遺伝子リストはまだ公開されないそうです。
今のところ、プロジェクトの参加者内でのリストにとどめているとのこと。
いずれにしても、メーカーが販売している遺伝子パネルとはだいぶ違うでしょう。

そして注目すべきは、Mount Sinaiでは既に2台、PacBio RSIIを持っているのですが、今回、3台めをこのラボ用に購入するということです。
彼らがどうやって、PacBioをクリニカルに応用していくのか見ものです。
何てったって、このラボのトップ、Dr. Eric Schadtは、設立初期のPacBioで長年CTOを勤めただけあって、PacBioの技術には精通しているからです。
もちろん、私もフォローしていくつもりです。

これから益々PacBioもNGSも、盛り上がっていくような雰囲気を感じます!


ところで、ライフテックのAmpliseqでカスタムに設計したアンプリコンは、PacBioで読めるんでしょうか?
原理的には読めるはずですが。
誰か、PacBioで読むことを前提にした、疾患カスタムアンプリコンに興味のある方いませんかね。
一から設計したい、PacBioで読んでみたい、という独創的かつ野心的な方、いたらお知らせください。 力になります! なれると思います。

2014年9月15日月曜日

ゲノムのジグソーパズル

http://www.princeton.edu/main/news/archive/S41/01/85G88/

オキシトリカ属、って知ってますか?
Oxytricha trifallax
Ciliated Protozoa
なんて、原生生物の専門家なら常識なんでしょうが、私は初めて知りました。
ゲノム的にすごい生物なんです。

Chen et al., (2014). Cell 158, 1187-1198.

まず、この単細胞生物には、他のCiliatesの仲間と同じく核が2つあるんですね。
小さい核(MICronucleus)と大きい核(MACronucleus)
通称、MICとMAC   なんか、名前がかわいい

MICはGermlineの染色体、MACはSomaticの染色体があります。
Sexual Conjugation(何て訳すのかな?)の後、MACは消えて無くなり、新しいMACが、MICのひとつから作られるそうです。
その、MICから新しいMACが作られる過程で、想像も付かないことが、ゲノムレベルで起こっているのです。
Chen et al.
MICの染色体には、Macronuclear Destined Sequences (MDS) という配列と、Internal Eliminated Sequences (IES) という配列(それぞれ、Exon、Intronに考えが似ている)があります。
しかし、MICの染色体上では、これらMDSが、一見ランダムに位置している。
あるものは順番が異なり、あるものは向きが逆で、というように。
MICからMACが出来る際、MIC上のMDS配列はおよそ225,000ものフラグメントにバラバラにされ、IES配列が分解されたあと、MDSフラグメントは、16,000ほどの配列に順序良く並び替えられるそうです。

つまり一旦、自分のゲノムをバラバラにして、再構築する!
そして再構築にかかる時間はたったの60時間

再構築された後の16,000の配列は、Nanochromosonesと呼ばれるそうで、平均3.2kb、ひとつひとつがテロメア配列を持っている。
つまりMACの染色体は16,000本、1遺伝子1染色体?

なんともSFチックな、想像も付かない話なんですが、このMIC染色体を読んで、ゲノム再構築の謎に迫ったのが、上記の論文です。
著者の1人、Robert P. Sebra氏には、今年5月の「PacBio現場の会@秋葉原」のスピーカーでもあったので、知っているひともいるでしょう。 
早速メールで、「論文おめでとう!」
もう察しは付くかもしれませんが、MIC染色体を読むのにPacBioが使われています。


ここからはちょっと詳しくマテメソ話・・・

論文によると、彼らは PacBioシークエンス用に MIC-enriched DNAを、5μg 用意しました。
G-tubeで10kから20kを狙って断片化し、1.9μgのDNAをライブラリ調整に。
Blue Pippinで7kbカットオフ、18%の回収率。
P5-C3 で読んで、15xのデータを取得。
(MICのゲノムサイズは推定490~500Mb)

一緒にMICをIllumina HiSeq2000でも読んで、110xのデータを取得。
先にHiSeqデータをアセンブリして、145,639本のContig(N50=7.1kb)を得。
PacBioのリードは、MACゲノムデータベース(既にあるらしい)と、今回読んで得たIllumina ContigsにBLASTN検索して、どっちに分かれるか判別。
Illumina Contigsに貼りついたほうが、MACのコンタミが無い、MICゲノム由来のPacBio配列、というわけ。
次に、MIC由来候補のPacBio配列から、絞られた3kb以上の配列を、Illumina Contigs配列を使って、EC Toolsでエラー補正、そしてCelera Assembler

結果、25,720本のContigs、N50=27,807pb、最長381kbp、アセンブリサイズ496.2Mbpを得た。
15xだと、これ以上Contigs数を減らすのは難しいのか。

これにBACライブラリも読んで、精度をあげている。BACのシークエンスにもPacBioをもちろん使用!


で、このMIC Contigsで、MAC Contigsの塩基、98.9 %をカバーできた。
そして、18,405本のテロメア配列ありのMAC Contigsのうち、98.3%は、少なくとも90%以上MIC Contigsをカバー、88.1%はすくなくとも90%以上MICのsingle Contigをカバーできた。
ということで、MICとMACのゲノムが、どんな風にリアレンジメントされるのか、スクランブルされるのか、その仕組みを解析できたのです。

その仕組みは、とても複雑でここでは書ききれないほど。(本当は説明できる自信が無いから?)

3,500以上のスクランブル(「かき混ぜる」という意味。スクランブルエッグという言葉があるでしょ。)されている遺伝子とされていない遺伝子は長さに違いがあることがわかりました
また、800ほどの遺伝子はMICゲノムから発現され、それがゲノムリアレンジメント、スクランブルに重要な働きをしているらしいこともわかりました。


この研究が、PacBio無しではなり得なかった?理由は、MICのゲノムの複雑さにあります。
Illuminaリードでアセンブルしても、ゲノムにはリピートが多いため、Contigの総塩基数は392.3Mb と、想定ゲノムサイズより短くアセンブリされてしまう。
PacBioを使うことで初めて、496.2Mbを得た。
およそ20%の情報が新たに得られたことになる!


さて、この生物、池に住んでいる単細胞だからって、ゲノムは決して単純では無いことを教えてくれる。
ゲノムリアレンジメント、のモデル生物にもなるくらい。
そして、こんな複雑なゲノム構造を持つ生物は、他に見つかっていないらしい。
今はやりの、「ゲノム編集」と同じく、ゲノムをバラバラにしてもう一回アセンブルし直すという技術は、もし解明されたら素晴らしい技術革新になる可能性を感じた。

是非、フォローしたい研究!



2014年9月10日水曜日

Oxford Nanopore 騒動続く


先日のOxford Nanoporeの書き込みの中、会社の略語は、ONTでした。
間違ってONPと書いていたので修正しました。

さて、このMikheyev氏の論文発表、予想通り賛否両論出てきました。
Twitterやブログではかなり盛り上がっています。

まず、Mikheyev氏の今回の行動(MinION Access Programのデータを論文公開したこと)に対する批判がこちら


曰く、MAPは、共同研究の類であり、両者の信頼関係が大事
曰く、Mikheyev氏は、MinIONを手にしてたまたま悪いデータを取得した。それだけの話。論文にするレベルの仕事ではない
曰く、読むほうも時間の無駄

とまあ、ケチョンケチョンにけなしています。 さすが自由の国! でもちょっと大人気無い。


今までナノポアのデータが全く世にオープンになっていなかった中、結果は悪いながらも公開に踏み切ったMikheyev氏の勇気ある行為は、それはそれでサイエンスにとって良いことだと思うのですが。
これには反対の意見もあるでしょうね。

勿論、たまたま、Mikheyev氏のMinIONが不良品だった可能性もあります。
それならONT社は交換に応じれば良い。
同じサンプルを正規品でもう一回読んで、反論すれば良いだけの話、ではないでしょうかね。

で、Mikheyev氏擁護派はこちら

長文の記事ですが、ぜひ英語で読んで欲しい
ONTに関する誤解、誤報、などがまとめられています。

Mikheyev氏のとった行動は決して悪くはない! 悪いのはどっちだ!
とまあ、アンチONT的な主張。

ここで、
Myth 4. “ONT error rate ? better than pacbio but worse than Illumina.”
といのがやはり気になりますね。

PacBioよりも精度が良いって?
そんな例はまだ見たことが無い。 あるなら是非、見せて欲しい。

PacBioより精度が良いかどうかは別として、カバレッジを増やせば、それなりに精度の良いコンセンサス、アセンブリは取得できると思います。 どのシークエンサーも、カバレッジを重ねて、精度を担保していますから。


もし、Mikheyev氏が発表したデータが、とても素晴らしいデータだったら、ONT社は、彼がデータを公開したことについて批判したでしょうかね。

もし、仮にONTの結果がすごく良いデータだったとしても、私もこのブログで紹介していたと思います。 ええ。 本当に。 しつこい?

PacBioにとって脅威になるかもしれませんが、それはそれとして。
そしたらブログの名前変えようかな? (冗談)


2014年9月8日月曜日

情報公開はEarly Accessでも必要か Oxford Nanopore

池上彰さんが、朝日新聞の連載に、朝日を批判する意見を書いたら、掲載を断られたそうです。
で、池上さんが、「長年の信頼関係が崩れた」と、連載の中止を発表。 
そしたら一転、朝日新聞側は謝罪、掲載されるようになったと。
でも後を引いているようですね。

報道の自由、表現の自由、というのは、サイエンスの場でもあると思います。
それは企業であっても、一度、オープンにして良い、という条件を提示したら、協力者がどんなことを発表しても受け入れなければいけない。 それくらいの覚悟を持たないかぎり、やってはいけないんです。



昨年の終わり、Oxford Nanopore Technologies (ONT)社が、Early Access Programを開始しました。
ここの説明が詳しいです。
いくつかの候補サイトに、MinIONを送付、指定のLambdaサンプルと、ユーザの好きなサンプル、の2つをMinIONを使って読むことができる、プログラムを開始しました。

データの開示にはいろいろ条件・契約があるみたいですが、先日論文がなんと日本から出ました。


びっくりしました。 沖縄・ぜんぜんノーマークでしたよ。
著者はOISTのAlexander S. Mikheyev博士
Lambdaのリシークエンスと、ヘビのcDNAアンプリコン(彼らのサンプル)を読んだそうです。

で、内容を読んでもっとびっくり。
かなり詳細に、プロトコルからデータ、解析結果まで書かれているんです。
それもかなりONTに不利な内容。

もちろん、「これは初期のONTデータなので、将来改善されると思う」とは断っています。
Lambdaのリシークエンスのデータは、サンプル調整に半日、シークエンスに36時間かけて出来た150Mbの生データは平均リード長5Kb
ここまでは良い。

でもリファレンスにアラインしたら、10%のリードが、相同性2.2%と8.9%でマップされた・・・って。
(2つあるのは読み方の違い。同じDNAを1回しか読まないか、2回(+鎖と-鎖)読むかの違い)
でも、精度と呼べるレベルかはわからないけど、10%の相同性って、どう評価してよいものか。

cDNAアンプリコンのほうはもっとひどい。
24時間のシークエンスで1,429本(1回の読み方)と、16本(2回の読み方)のリードが出力
たったそれだけ?
1429本のリードのうち、BLASRでアラインしたのは10本、BLASTNでアラインしたのは21本

もちろん、彼らのマッピング方法が最適ではない、という指摘もあるでしょう。
Nanopore用の解析ツールを使っているのかどうかも不明です。
例えばこれ poretools

ONTのデータは、フォーマットが特殊で、fast5というバイナリで出てきます。
これをFASTAやFASTQに変換する。
FASTQファイルも、中身が空っぽのファイルが結構ありますし、まだ扱いにくいし情報も少ない。


彼らのデータは、とても現実のシークエンス解析に使えるほどの質を持っていないことが明らかになりました。
実は、噂で、別のユーザが似たようなデータを出していると聞いていました。
そのデータと、今回の論文のデータが、出力、マップ精度共に非常に似ているのに驚きました。


というと結構アンチONTになってしまうので、バランスを取るため、「いや、そんなにナノポア悪くないよ」という例をひとつ

これは私が実際、6月に聞いてきた、Histogeneticsという会社の発表です。
彼らが読んだサンプルは、LambdaとHLAアンプリコン
Lambdaの話はしていませんでしたが、HLAアンプリコンのほうは、実際のデータをひとつ出していました。
平均リード長5kb、そのうち何本がマップされたとは言っていませんでしたが、マップされたリードのマッピング精度は50%、そしてInDelエラーがかなり多かった。
「この段階ではまだとても解析には使えない。ロングリードが必要ならPacBio使え」 と言っていましたが、10%の相同性というほどひどくは無かったようです。

どうなんでしょうねえ。 実際のところ、エラーはかなり多いみたいですが。
今後も色んなところでデーがぼちぼち公開されるでしょう。


で、最初の話に戻りますが、サイエンスはオープンであるべきだと思います。
企業が、科学者に評価を頼むとき、いろいろ条件はつけるでしょうが、基本はその科学者の自由に任せて発表してもらうのが筋でしょう。

しかし、ONT本社は、彼らの評判を下げるようなデータを公表した(実際データはここから取得できる)、OISTのMikheyev博士を、MAP(MinION Access Program)から脱退させたとのことです。

くわしくはこちら

We therefore can only conclude that your objectives and outlook are fundamentally misaligned with those of the MAP programme and the other participants.

つまり、俺たちの都合の悪い発表はしてくれるな、ということなんでしょうか?
だったら、もっと先に人を選べばいいのに。

これは揉めるだろうなあ

Twitterでも炎上、まではいかないけれど、賛否両論あると思いますよ。


2014年9月4日木曜日

シングルセルWhole Genome Amplification シークエンス

先日も少し紹介しました「De Novoの達人」論文が、GenomeWebで紹介されました!
InComparison of De Novo Assembly of Bacterial Genomes, PacBio System Comes Out OnTop
パチパチパチ!
「De Novoの達人」と言えば、Vibrio parahaemolyticus のゲノムを、PacBio RS, Illumina MiSeq,  Ion Torrent PGM, Roche 454 GS Junior で読んで、そのアセンブル結果を比較した、昨年の「NGS現場の会 in 神戸大会」の企画ですよね。
その結果、PacBioが一番良かった。
ダントツに良かった。

バクテリアゲノムアセンブリには、PacBioが最も良い。 
rRNA遺伝子オペロンは5~7kb、これがゲノムに何箇所もあるとしましょう。
どんなにペアエンドでカバレッジ稼いで読んでも、ショートリードではつながらない。
PacBioの超ロングリード(P5C3試薬は平均8500bp)であれば問題ない!

目的によりますが、PacBioはすごいんです。

--------------------------------------------------------------
さて、話は変わってシングルセルの話題。
最近熱いですよね。

シングルセルからのゲノムまたはmRNAを、NGSを使って読む、という技術。
今日はゲノムに絞ります。

ゲノム全体を増幅する技術のことを、Whole Genome Amplification (略してWGA)と呼びます。
なぜこんなことをするのかというと、単離したがん細胞や、培養が難しいバクテリアのような、一細胞のゲノムを読みたい、というニーズがあるから。
がん細胞は、一細胞でのゲノムがユニークです。正常細胞との混ざりものゲノム解析は、出来れば避けたい。
難培養バクテリアの場合も、NGSに必要なゲノム量を確保するのが困難です。

シングルセルを取ってくる技術として、例えばがん細胞、特に末梢血中のがん細胞 CTC(Circulating Tumor Cell)、を採取する機器があります。(例えばMMI CellEctor Plusとか)
難培養菌の場合はもっと、機械に頼らないマニュアル的な採取方法があると思います。(機械があったらごめんなさい)

というわけで、一細胞を取ってくるまでは、何とかできる。
次にWGAでゲノムを増やします。

これは、MDA(Multiple Displacement Amplificationの略)という方法で増やします。 
NDAではありません。こっちはNon-disclosure agreement、秘密保持契約。 余談ですが、最初聞き間違えて、全く話がチンプンカンプンになったことがあります。皆さん、初めて知らない略語に触れたら、恥ずかしがらずに聞きましょう!

MDAは、Phi 29ポリメラーゼを使って、DNA二本鎖をはがしながら増幅していく、PCRに頼らない増幅方法です。 
これは色んなウェブにわかりやすい説明が載っているのでわからないひとはググろう!

キットとして販売されているものでは例えばキアゲン社のREPLI-g Single Cell Kit があります。

このカタログには、

  1. シングルセルからの最大のゲノムカバレッジでの全ゲノム増幅
  2. MDAテクノロジーによりゲノム遺伝子座の偏りの無い増幅
  3. 次世代シークエンシングのような新テクノロジーでの使用に最適
  4. 最大40μgまでの一定した収量(増幅産物長さの平均は>10kb)
とありまして、特に4番目の項目がPacBioには魅力的です。


とは言っても、一般的にMDAには問題もあるようです。

バクテリアのシングルセルからのWGAアプリケーションの述べたレビューがあります。

Lasken et al.,
Nature Reviews Genetics 15, 577?584 (2014) doi:10.1038/nrg3785

Lasken et al.
この論文によると、WGAによって、シングルセルからリファレンスゲノムが得られた難培養バクテリアは、Atribacteria (OP9)、Hydrogenedentes (NKB19) などがあるそうです。
Graig Venter博士らのグループは昨年、TM6という新規門に属する難培養バクテリアを病院の流しから採取、WGAでゲノム決定しています。
MacLean et al., June 25, 2013 vol. 110 no. 26

このような成功例はあるものの、一般的に、WGAによるアセンブリはかなりフラグメント化されてしまうそうです。
理由は、増幅バイアスです。
ちょっとの増幅のされやすさ、されにくさが、指数関数的にリードの差を生んでしまいます。
何しろ1セルのゲノムが最終的に10億倍にも増えるんです。
カバレッジが均一でないサンプルを読むわけですから、アセンブリも難しいのでしょう。

また、コンタミを防ぐためクリーンルームが必要というのも注意点です。
コンタミしたPlasmidを一生懸命増幅して読んでいた、なんてことになりかねませんから。

とは言うものの、もし、目的のゲノム配列だけが安定して増幅できれば、WGAは素晴らしい技術でしょう。
この世界は予想がつきませんから、どこかで開発が進んでいるかも。