2014年12月28日日曜日

Better NGS Solutions Labcab (2) PacBio RSIIによるアイソフォームシークエンス

分生Labcabポスター2枚目です
何度も言いますが、初心者向けに作られた内容ですので、物足りないひともいるでしょう。
まあ、お許し下さいませ



タイトル:PacBioRS II によるアイソフォームシークエンス


<概要>
Pacific Biosciences社のDNA一分子リアルタイムシークエンサー、PacBio RSIIは、これまでのシークエンサーの常識を超える、ロングリードを出力する。これまで、次世代シークエンサーで発現遺伝子のアイソフォームを把握するには、出力されるリードが数百bpと短いため、読んだ後にアセンブルをする必要があった。しかしこの方法では、リードがある遺伝子のどのアイソフォームを読んだものかを正しく知ることは難しい。一方PacBio RSIIは、数千bpにわたるロングリードをハイスループットで出力できるため、転写産物のcDNAを、5'側から3'側まで一気に読むことができる。これにより、アセンブリ無しで、完全長のアイソフォーム配列を得ることが可能になった。

<本文>
完全長cDNAアイソフォームシークエンス
PacBioのシークエンステクノロジーは、最新試薬P6-C4で平均10Kbpのリードを出力することができる。このロングリードの威力を発揮するアプリケーションのひとつは、ロングアンプリコンシークエンスである。Alternative Splicingによって様々なアイソフォームを持つ転写産物を、完全長cDNAにした後にPacBioシークエンス用にライブラリを作製して読めば、完全な形でアイソフォームの配列を読み取ることが可能である。
既にアメリカ・スタンフォード大学やワシントン大学などでは、ヒトのトランスクリプトームを完全長cDNAで読むことで、新規な転写産物をたくさん報告している(Sharon et al. (2013) Nat Biotechnol  doi: 10.1038/nbt.2705、Au et al. (2013) PNAS  doi: 10.1038/pnas.1320101110.)。


図1.アイソフォームの完全配列から、PacBioのライブラリを作製してシークエンス

ライブラリ作製の流れ
PacBio RSIIを使ったアイソフォームシークエンスで良いデータを出すためには、完全長cDNAの作製、ライブラリのサイズセレクション、という2つの重要なステップがある。これらのステップを正確に行うことが、成功への鍵である。
最初のステップである完全長cDNAの作製には、タカラ・クロンテック社のSMARTerをお勧めしている。これは、mRNAのPoly‐A側にオリゴdTプライマーにより逆転写を行う。比較的簡便に、完全長のcDNAを得ることができる。ほかにも完全長cDNAを作製するキットは他社から販売されていて、PacBio本社のラボでもテストが行われている。
完全長cDNAが作製されたら、PCR増幅し、アンプリコンを作る。このときのPCRサイクル数は、必要最低限に抑えるのがコツである。過剰に増幅されるバンドが無く、どのサイズも一定に増えるようにサイクルを最適化する。
次に増幅したアイソフォームのアンプリコンは、サイズを分けて回収する。サイズは例えば1-2kbp、2-3kbp、3-6kbpというふうに3つに分ける。サイズを分けて回収したそれぞれのサンプルで、別々にライブラリを作製する。サイズを分ける理由は、短いライブラリと長いライブラリを混ぜてシークエンスした場合、短いライブラリが長いライブラリに比べて優先的にシークエンスされやすい、というPacBio RSIIシークエンサーのウェル独自の特徴があるためである。サイズセレクションは、ゲルで流してマニュアルで分画するか、Sage Science社のBlue PippinやELFのような自動分画装置を使用する。
ここから先は、PacBio社のキットを用いて、DNAの損傷修復、平滑末端化を行う。そして、両端にヘアピンアダプターをライゲーションする。こうしてできたSMRTbellライブラリは、プライマーをアニーリングさせ、ポリメラーゼを結合させてからPacBio RS IIシークエンサーにセットし、サイズの異なるライブラリごとに、別々のセルでシークエンスする。

バイオインフォマティクス
PacBio RSIIから出力される生リードは、最新試薬P6-C4を使った場合、平均10kbpに達する。一方、cDNAの完全長はたいてい1.5kbから長くても5kbpが普通である。一見するとPacBioのリードは長すぎるように見える。しかし完全長のcDNAを高精度に読むためには、できるだけ長いリードが出力される方が望ましい。理由を以下に示す。
図2に示すとおり、PacBioのSMRTBellライブラリは、そのダンベル型の構造によって同じ配列を何度も読むことができる。インサートが短いcDNAの場合、この箇所を何回も読むことにより、1回で読んだ場合のエラーを自ら補正することができる。PacBioの生リードは精度が86%程度であるが、エラーの多くがランダムなInDelなので、同じ分子を何度も読んだときに得られる配列を重ね合わせることで、エラーをキャンセルし、精度を99%以上に高めることが可能である。
このようにして得られた1分子DNA由来のコンセンサス配列のことを、Circular Consensus Sequence (CCS)、またはReads of Insert (ROI)と呼んでいる。
コンセンサス配列は次に、フルパスのcDNAを含むか否か、に分けられる。フルパスのcDNAは、5'側プライマーとUTR、コーディング領域、Poly-A配列、3'側プライマーを含む。確実にフルパスが読めていたものだけを抽出する。
プライマー配列とPoly-A配列をトリミングした後、同じアイソフォーム由来のコンセンサス配列をクラスタリング手法を使ってマージする。このようにしてデータの冗長性を取り除きながら、同時に完全長cDNA配列の精度を上げる。
最後に、生データが持つパルスデータなどの情報を使用して、再度配列の精度を上げる。このようなプロセスを経て、精度99%をはるかに越える、正確な完全長アイソフォーム配列が完成する。
リファレンスゲノム、遺伝子アノテーションがある場合は、アイソフォーム配列をゲノム配列にマッピングすることで新規のアイソフォーム配列を見つけることができる。
これら一連の流れ、フルパスのコンセンサス配列の抽出、クラスタリングから精度向上アルゴリズムまでは、PacBioの解析ソフトウェア-SMRT Analysisで簡便に行うことができる。

アイソフォームシークエンスの特徴
PacBioの超ロングリードによる完全長cDNAシークエンスの目的は、一分子由来のアイソフォームを完全に読みきることで、Alternative Splicingの異なるアイソフォーム配列を検出することである。最終的な出力配列からは、量的な情報(発現量の情報)は除かれている。アイソフォームごとの発現量を解析するには、ショートリードシークエンサーのデータを組み合わせるなど、工夫が必要である。
図2、1分子のcDNA全長は、PacBioのロングリードで何回も読まれる






2014年12月27日土曜日

Better NGS Solutions Labcab (1) PacBio RSIIによるバクテリアゲノムアセンブリ

12月27日だというのに年賀状をまだ書いていない私です。
毎年「今年こそ早く書いてしまおう!」と、10月ごろは思うのに、毎回この有様。
それほど潜在意識の中で、「いらない習慣だ」と思っているのでしょうね。
高校生のとき、年末年始の郵便配達のバイトをやって小遣いを稼いだこともあるので、年賀状にはお世話になったんですけどね。

今年の分生は、企業ブース以外にLabcabというNGS関連の合同ブースがありました。
サンプル調整からNGSメーカーまで、数社が合同で製品の紹介をする、というようなブースです。
もちろん、我がPacBio RSIIは、実機を展示というわけにはいきません。
実機展示できるIon PGMがうらやましい!

で、PacBioはポスターを展示。
主催者さんから、「分生だから初心者向けの、やさしい内容の方が受けます」とのアドバイスを頂き、2枚ポスターをつくりました。
内容的には、このブログを読んでいるひとなら「知ってるよ!そんなの」という感じ。
でも、せっかく作ったので、ここで公開します。
今日はその1枚目、PacBio RSIIによるバクテリアゲノムアセンブリ


タイトル: PacBioRS II によるバクテリアゲノムアセンブリ

<概要>
Pacific Biosciences社のDNA一分子リアルタイムシークエンサー、PacBio RSIIは、これまでのシークエンサーの常識を超える、ロングリードを出力する。次世代シークエンサーといえばリード長が数百bpのものがほとんどだが、PacBio RSIIのリード長は、数千bpにわたる。現在の最新試薬、P6-C4を使い、20kbライブラリを4時間ムービーでシークエンスした場合、平均リード長は10kbp、最長40kbpに達する。

<本文>
得意なアプリケーション
このロングリードの威力を最も発揮するアプリケーションは、デノボアセンブリである。バクテリアなどの比較的小さいゲノムサイズであれば、PacBio RSIIの1ランで出力されるリード数で、数株のゲノムを決定することができる。バクテリアゲノムの中で、リボゾームRNAオペロン配列は数kbpに及び、複数コピーのリピートを形成していることが多い。このような長いリピート配列を正確に読みとり、染色体配列を正しく再現するには、数百bpのショートリードでは難しい。PacBioの平均10kbpのロングリードを使用すれば、それまで数百のContigに分かれていたような複雑なゲノム構造でも、完全な染色体配列にすることが可能である。

ライブラリ作製のヒント
PacBio RSIIを使ったシークエンスで良いデータを出すためには、最初のDNAのクオリティチェック、DNAの断片化、ライブラリのサイズセレクション、といういくつか重要なステップがある。これらのステップを確実にすることが、成功への鍵である。
最初のステップであるDNAのクオリティについては、できるだけきれいなDNAを精製することが重要である。DNAにUVを当てない等の注意点もある。不純物のコンタミが予想される場合は、MOBIO社の精製キットなどを使用して、DNAをきれいにしておくことをお勧めする。
次に重要なステップは断片化である。できるだけ長いライブラリを作製するために、Covaris社のG-tubeを使用する。このキットは、遠心力によって、細孔を通るDNAを切断する。我々は(株)トミー精工の遠心機で最適化を行っており、20kbpのサイズに切るための条件を得ている。
ここから先は、PacBio社のキットを用いて、DNAの損傷修復、平滑末端化を行う。そして、両端にヘアピンアダプターをライゲーションする。こうしてできたSMRTbell?ライブラリは、次に、サイズセレクションというステップに移る。
サイズセレクションとは、カットオフ値以上のサイズのライブラリだけを抽出することで、短いライブラリを取り除くのが目的である。これは、Sage Science社のBlue Pippinを用いる。このBlue Pippinは4~15kbpでサイズをカットオフすることができる。
このようにして準備されたライブラリは、プライマーをアニーリングさせ、ポリメラーゼを結合させてからPacBio RS IIシークエンサーにセットし、シークエンスする。


図1 大腸菌20kbpライブラリをサイズセレクションした後、最新のP6-C4酵素で4時間シークエンスしたときの、1セルあたりのスループット。横軸がリード長、縦軸がリード数。平均リード長は10kbp、スループットは550Mbp


バイオインフォマティクス
PacBio RSIIから出力される生リードのスループットは図1の通りで、比較的短いリードが多く、長いリードは少ない(短いといっても1kbp以上はある)。これらの生リードを互いにアライメントさせ、エラーを補正していく作業は、ゲノムアセンブリの前段階に必須である。PacBioのリードに存在するエラーは、InDelがほとんどで、ランダムに存在している。そのため、リードを多数アラインさせると、エラーをほぼキャンセルさせることが可能である。
こうしてエラー補正された、精度の高いロングリードを用いてアセンブルする。アセンブラーはCelera Assemblerが推奨されている。アセンブリ後のContig配列は、再度生リードをマッピングさせてアセンブリエラーを補正していく。このとき生リードの持つパルスデータ、様々なクオリティデータなどを使用するので、最終的に得られるContig配列は、精度が99.999%に達することもある。
上記のバイオインフォマティクスツールは、PacBio社の二次解析ソフトウェア-SMRT Analysisに用意されている。マウスクリック操作またはコマンドラインで解析できる。計算機はクラスターサーバを推奨する。PacBio生データを直接アセンブリ解析できる有償ソフトウェアは未だ無い。

データの特徴
PacBio以外の次世代シークエンサーは、1分子のDNAを増幅してクラスターにした状態で読んでいる。PacBioのテクノロジーは、1分子のDNAを直接読んでいるため、増幅によるバイアスの影響を受けにくい。一般的にシークエンシングが困難だと考えられている、GCリッチあるいはATリッチな領域、高度な繰り返し配列、長いホモヌクレオチド、パリンドローム配列でも、PacBioでは一様な配列決定が可能である。

大型ゲノムへの挑戦

大きなゲノムサイズの真核生物のアセンブリにも、PacBio RSIIは用いられている。この場合、ショートリードで作られたアセンブリ結果のContigに対し、PacBioの超ロングリードを使ってギャップを埋めたり、Scaffoldを作ったりすることで、より長い連続配列を作製するのに良く使われる。最近では、PacBioデータのみでヒトゲノムサイズのアセンブリに挑戦している例も見かけるようになった。このような大型ゲノムのアセンブリの場合、最初のエラー補正のプロセスが計算処理に非常に負荷がかかる。この問題は、次々に開発されている新しいアルゴリズムに期待する。


2014年12月24日水曜日

日本ゲノム微生物学会、NGS現場の会、2015年もイベントが目白押し


日本ゲノム微生物学会、毎年3月に大会がありますね。
2015年は3月6日(金)~8日(日)、神戸大学・六甲第二キャンパスで行われます。
第9回日本ゲノム微生物学会年会

2012年から、PacBioでランチョンセミナーをしていますが、15年もやるつもりです!
正式に決定したらまたお知らせしますね。
(2014年12月23日現在、まだ知らせが無いのですが)

ちなみに日本ゲノム微生物学会ニュースレターVol.10が12月に発行されています。
誰でもこちらからダウンロードできるのでどうぞ。
な、なんと、表紙はPacBioでのメチローム解析例です!
2014年のゲノム微生物学会のランチョンセミナーでお話頂いた、古田先生の研究発表です。
表紙になるなんて、うれしい限り。

15年もいろいろなイベントを考えています。
特に、7月には「NGS現場の会大会」が、つくばでありますね。ここでは企業セッションをします。
その前に5月には、「国際ゲノム会議」が一ツ橋であります。ここではPacBio本社からDr. Jonas Korlachが講演します。
そして3月のゲノム微生物学会。

恒例のユーザーミーティングやらワークショップ、15年もやろうかな「PacBio現場の会」
バイオインフォマティクス系のワークショップ、もニーズはあるでしょうね。
他社さんは、セミナーやシンポジウムなど、名前は違えどわりと頻繁にやっていますので、我々も負けずに。
でも、ユーザ数が違うので、集客があるかどうか・・・ これが悩ましいところ。
開催する側は常に悩むのですよ。じつは。




2014年12月22日月曜日

PacBioでヒトゲノム構造解析

もう年末ですよね。
急に寒くなってきたり、雪が降ったり。

出張で顧客のところに行ったとき、偶然、知っている企業のひとに会うことが結構あるんです。
皆さん、年末ということで忙しそうです。
そんな中、とあるところで、今年のサンディエゴのASHGでのパーティで出会った、某企業のお偉いさんに偶然会いました。
彼は私のことを覚えていて、立ち話したのですが、彼らの新製品、実に魅力的なんです。
シークエンス解析に大きなインパクトを与えるかも知れない、でもシークエンサーではない、そんな機械です。
BioNano Genomics のIrys
またこの機械のことは書こうかと思いますが、いわゆるオプティカルマッピングとは似て非なるもの。
PacBioとの相性も良いと思いますよ。


さて、もうご存知の方もいらっしゃると思いますが、PacBioでヒトゲノムを読んだ論文がNatureから出ています。
ヒトゲノムといってもこちらはハプロイド。
どういうことかというと、受精のときに、卵由来の核が無く、精子由来の核のみが分裂、増殖していくという現象があるそうです。
この場合、46本の染色体を持つことになるけれど、普通の受精卵と異なり、2つのペアは片方のコピー、つまり遺伝的にはハプロイド。
下の図の右側
20 Nov. 2014, vol 515, Nature, p323より
我々の「One of the MUST READ Paper」は、
Chaisson MJ., et al. Resolving the complexity of the human genome using single-molecule sequencing. (2014) Nature.
リンクはこちら

彼らはCHM1ハプロイドゲノムをPacBioのP5-C3ケミストリーで40x読んで、GRCh37に存在する様々なStructural Variantを解析した。
結果、リファレンスゲノムGRCh37に存在する164個のGapのうち、50をCloseさせて、そのうち39のGapは数Kbに及ぶSTRを持っていたらしい。
Closeによって伸長されたゲノム配列は398Kb
またClose まではできなくとも、Gapの両端を伸ばすことによって伸長した配列は721kbに及んだ。

彼らは、PacBioデータでデノボアセンブルを試みたわけではない。
まずはロングリードをGRCh37のリファレンス配列にBLASRでマップして、Gapの領域周辺にマップされたリードだけに注目する。
そのGap周辺Mappedリードだけを、Celera Assemblerでローカルアセンブリ、QuiverでContig Poishingをして、精度の高いコンセンサス配列を得た
その配列を、以前、CHM1tertのBACを読んで得た配列と比較したところ、99.97%(Phred score = 37.5)の一致を得、エラーの72%はホモポリマー内のInDelだったそうな。

これまでヒトゲノムのGapのCloseができなかったのは、配列がGCリッチであったり、ATリッチであったり、またリピート配列そのものが大腸菌に毒であったり(それによってクローンができない)、はたまたリピートがとんでもなく大きかったり、そういう理由があるそうです。
でもPacBioなら、クローンを作る必要なし、GC含量によらない、ということで、ヒトゲノムの構造多型を解析するのには最適なのです。
(もちろん数100kb単位でのリピートは、さすがのPacBioも無理です。余談ですがそんな超ラージリピートの解析に、最初に紹介したBioNanoのIrysが役に立つ!)

もちろんバイオインフォマティクスは複雑。出来合いのツールは無いので、自分たちで開発しないといけません。
当然、ヒトゲノムのフロンティアを切り開いてやろう!という野望を持った研究者なら、優秀なバイオインフォマティシャンとタッグを組んでいると思います。
ツール開発、アルゴリズム開発は常に、こうした新しい技術と優秀な人材で、前進していくものですね。

この論文のラスト・オーサーである、Dr. Evan Eichlerは、今年のASHGのPacBioワークショップで講演しています。
その様子を見たいかたは、こちらからどうぞ

PacBioのリード長も伸び、スループットが増えたので、ヒトゲノムに挑戦する研究者は多いと思います。
まだまだ全ゲノムアセンブリは計算機パワーなどで大変でしょうが、リファレンス配列やショートリードのデータをうまく利用すれば、構造多型、Large InDelの解明に少しずつ開けてくると信じています。

来年、2015年は、PacBio Year !

2014年11月27日木曜日

オートクレーブ洗浄液

今日は分生中日です。
通年は4日ありますけれど、今年は3日なんですね。
参加者も少なくなっているのかな。

もう明日で終わりですけど、面白いセッションはありましたか?

今日はNGSとは全く関係ない話題です。洗剤の紹介です!

もし明日、分生に参加されるひとは、是非、トミー精工のブースに来てください。
52番はトミーデジタルのブースなので、その隣です。

オートクレーブは、どこの家庭にもありますよね。
失礼、
どこの生物系研究室にはありますよね。

何年も使っていると汚ったなくなりますよね。
においもひどい。

そんなときは、TOMYのAC-1000

これを適量入れて、オートクレーブを回すだけ。簡単です。

Before:超汚い
After:ぴっかぴか

これ1本で、5回使えます。

きれいにするためのオートクレーブが汚いのは、まったくいけません!
皆さん、年末の大掃除に向けて、是非、オートクレーブ洗浄液をそろえましょう!

欲しくなったひとは、明日分生のブース52の隣へGO!
本当は実演販売したらよかったですけどね。
汚いオートクレーブを持ってくるのも何だか、見た目が悪いですしね。

間に合わなかったひとは(株)トミー精工または、私のメアド ken_osaki(あっとマーク)digital-biology.co.jp まで。
何本かまとめて買うと安くなりますよ。

PacBioのブログで洗剤の紹介とは・・・ ま、たまには良いでしょう。

2014年11月18日火曜日

CGGのその後は・・・ Iso-Seq

しばらくブログを更新していないと、「最近忙しいんですか?」と言われ、
頻繁に更新していると、「最近ヒマなんですか?」と言われる。

いえいえ、ヒマなわけ無いじゃないですか!!

で、10月全く更新していなかったのは、わけがあるんです。
10月は、試薬の大きなバージョンアップの発表があって、本当は書きたかったんですが、ポリシーというか、顧客第一主義というわけで、まずは、全顧客に知らせてから、ということにしたんです。

ちょうど昨年の10月、NGS現場の会の大会で、新しい試薬P5-C3を発表しました。
平均リード長 8,500 bp ということになりました。

今年、新試薬P6-C4は、平均リード長が10,000 bpを越えます。(最適条件下でね)
こちらが完成した新しいカタログに載せているリード長の分布↓

どうですか?
びっくりしますよね。
分子生物学会で、ブース番号53に、カタログを置いておきます!

ところで、今日は、Iso-Seqの話。
以前も書きました、cDNAのアイソフォームを、アセンブリ無しに一気に読む方法です。

先日も某大学でセミナーをしてきたのですが、後で個別質問が出まして、改めて一緒に考えたりもしました。
そんな中、良い論文がありますので紹介します。

Pretto et al., (2014) Differential increases of specific FMR1 mRNA isoforms in premutation carriers. J Med Genet.
PubMed番号25358671
まだahead of print ?

この話は以前、「Iso-Seq WholeかTargetか」のところで書いた、Target Iso-Seqです
題材は、FMR1遺伝子 以前、2013年の4月、「リピートの秘密」のところでも書いた、CGGリピートがフェノタイプを決める、あの遺伝子です。

当時の論文は、CGGが200回連続でリピートしていても、PacBioで読めるぞ!というような、「GCに強いPac!」というメッセージが強めでした。
でも、よく考えたら、このリピートによって影響を受けるのは転写される遺伝子、mRNAです。
というわけで、このDifferential increases...の論文で注目したのは、転写されたmRNAのアイソフォームです。

figure from Pretto DI, et al.

Premutationと呼ばれるキャリアーは、CGGが55~200リピート。
このリピートはFMR1遺伝子の5'UTRと、Exon1の間にあります。
17個のCoding ExonからなるFMR1は、リピートの数によって、RNA-bindingドメインであるExon12や、アルギニン-グリシン-グリシン(RGG)RNA-bindingドメインやリン酸化サイト、メチル化サイトが存在するExon15が、Alternative Splicingを起こすのです。
でも、これまでどのようなアイソフォームが何種類存在するのかはわかっていなかった。

そこで、Iso-Seq!

遺伝子の後ろのほうが、スプライスされているから見てみよう、ということで、Exon9と3’UTRを挟むようにプライマーを設計。これでExon9から17までのスプライスイベントが読める。

ControlとPremutaionのサンプルを、PBMC(perpheral blood mononuclear cells)、cerebellum brain、primary fibroblastsからそれぞれ得て(計6サンプル)、これらのcDNAを先の配列特異的プライマーで増幅。
そして6つのライブラリを作ってそれぞれPacBioシークエンス(SMRT Sequence)

平均18,000リード/サンプルが得られたらしい
精度90%以上のCCSを解析に使用と言っているので、リード長の中央値が1,053bpと書いているのも恐らくCCSの長さのことだろう。
Exon9から3'UTRまでの想定される長さが1,095bpなので、間違いなく彼らの言うリードとはCCSだ。

ゲノムにアラインして、Exon9と3’UTRにマッチしなかったリード(CCS)は除去
これで26%が消えたらしい。
さらにPBMC、Brain、Fibroblastに共通して見られるアイソフォーム、などという条件で絞り込んでいくと、16種類のアイソフォームが見えてきたという。

もちろん、というか、5’UTRからExon8までの間もちゃんと増やして見ている。
ここではExon3のスキップがあったそうだ。

PacBioのシークエンスは、いくつもの連続するExonを読みきることで、アイソフォームの形を見ることができる。
では、発現量はどうか?
彼らは、そこにはNGSは使っていない。
qRT-PCRを使用して、発現量を測っている。

この論文は、FMR1転写物のスプライシングによって、どのFMR1アイソフォームが作られているかをPacBioのシークエンスで調査した初めての研究です!

ちなみにこのシークエンスが行われたのは、前のバージョンのRSで、一度に75,000個のZMWしか読めない機械。ケミストリーはC2
1サンプルに付き、2-3個のセルを使っていたらしい。
当時は平均リード長が、2,000 bp とか3,000 bp とか言われていた時代。
あれからたった2年ですよ。
今や平均10,000bp越え。


ところで、Alternative splicingの論文は、アイソフォームの絵を見ないと、読んでいてもさっぱりイメージつきませんね。
論文には、Fig.5に、きれいなExonのスプライスされた絵があるんですが、これ無しで論文を読み進めてもチンプンカンプンでした。





2014年9月25日木曜日

interdisciplinary な環境がイノベーションを生む


ナノポア、といえば真っ先にOxford Nanoporeが頭に浮かぶひとも多いでしょうが、ナノポアとはナノテクノロジーで作る穴、の一般名称
Oxford Nanopore以外にも、日本ではクオンタムバイオシステムズとか日立ハイテクノロジーズとかが独自、あるいは海外の会社と共同で開発している。
し か し、

今日紹介したいのは、米国・ボストンにあるNortheastern University

ここのLarkin博士らは、PacBioと共同で、SMRT CellのZMWに小さな穴「ナノポア」を開けて、微弱な電圧をコントロールすることで、DNAを可逆的にローディングし、スループットを飛躍的に向上させる可能性があることにR&Dレベルで成功した。
回りくどい言い方だが、そう、彼らはローディングをUpさせることに成功したのであって、シークエンススループットがUpしたとは言っていない。まだ。
次のチャレンジだ、と言っている。

Reversible Positioning of Single Molecules inside Zero-Mode Waveguides
J Larkin et al., (2014) Nano Letters DOI: 10.1021/nl503134x

彼らは、ZMWの底、直径70nmの面に(これがガラスではなく窒化ケイ素の膜になっている)、TEMで2.5~4 nmの穴を開けた。
そして、ビオチンのついたDNAと、蛍光ラベルされたストレプトアビジンたんぱく質、これをひとつのNZMWに投入、電圧を操作した。
高電圧下では、ストレプトアビジンはDNAから離れ、電圧を逆にすると、ストレプトアビジンたんぱく質-DNAの複合体はNZMWから放たれた。

さらに彼らは、8つのNZMWに、DNA-ストレプトアビジン複合体を流して、電圧を操作すると、8個中5個のNZMWから蛍光を検出した。
つまり62%のローディング効率、(我々の専門用語では「P1が62%」という!)

8個中5個で62%ねえ・・・。

今のマグビーズローディングでは、大体、20%~良くて50%といったところ。
平均は30~40%かなあ。
62%は確かにローディングの数字だけを見ればすごい。
しかしまだ、これはDNAを読んだわけでは無いし、15万の全ZMWを対象にした話でも無い。

技術としては面白いと思いますよ。
物理の得意なひとは、論文読んでみてください。
実用化したら、DNAは今の半分の量で済むかもしれない
DNA分子の動きをコントロールできれば、もっと効率的にシークエンスできるかもしれない
ああ、そういえば、DNA分子の動きをコントロールすることが、ナノポアシークエンス技術の最も難しいところだと、昨年京都の一分子DNAシークエンサーシンポジウムで何人も言っていたなあ。
DNAは3次元の構造体だから。


しかし、世界には面白いことを思いつくひとがいるんですね。
半導体やナノテクの技術者からは、生物やっているひとには想像も付かないアイデアが出てくるのかも。

interdisciplinaryという言葉を知っていますか?
日本語では、「多分野にまたがる」、「諸学連携」、という意味です。
色んな分野の専門家が集まったほうが、イノベーションを生むんですよね。
企業もそうであるべきだ、と最近思います。

最後にこの、Nanopore ZMW、略してNZMWは、もちろんまだ製品化されていないし、予定も無い、そうです!


2014年9月21日日曜日

プラズミドが先か、耐性が先か

先日、ひさしぶりに新宿歌舞伎町で行ってきた。
さすがは日本一の繁華街! 
街頭スピーカーから聞こえてくる内容は、
「路上で声をかけられて、ついて行ったら、必ずボッタクラレます」
と、何とも過激なアナウンス!

もちろん我々は安全な居酒屋(樽一;食べログ)に行きました。
ここは旨かった! 
店員がいい感じ


さて、今日はPacBioのロングリードが医学関連研究に使われていた例をひとつ

Beatson et al., Science. 345, 1454-1455 (2014).

細胞壁のある病原菌に対して、ペプチドクリカン構築を阻害することで、殺菌作用を示す抗生物質があります。
このひとつ、カルバペネム系抗生物質に対して、耐性を持つ病原菌のゲノムをPacBioで読んで、プラズミドが大事な働きをしているかもしれない、とわかったのがこの論文。

S. Conlan et al., Sci. Transl. Med. 254, 254ra126 (2014).

Conlan氏らは、1000人以上の肺炎患者さんからカルバペネム系抗生物質耐性の肺炎桿菌を調べ、bla-KPCという、カルバペネム系抗生物質を加水分解してしまう遺伝子が含まれるプラズミドを、PacBioを使って配列解析した。

患者さんや病院のシンクなどから採取した病原菌から、63種類のプラズミド配列がコンプリートされ、今までのショートリードではわからなかった、ゲノムの複雑性が明らかになったそうな。
同じbla-KPCを持つプラズミドがあると同じような耐性を示す。
ISEcp1というモバイル遺伝子は、ゲノムに入ると抗生物質耐性遺伝子を複数コピーしてしまう。

バクテリアのゲノムは、プラズミド遺伝子によって大きく影響を受けるんですね。
一種の共生関係。
バクテリアがプラズミドを利用しているのか、プラズミドがバクテリアを利用しているのか
しかし、抗生物質の耐性がプラズミドの遺伝子によるならば、医学が戦う相手はプラズミドなのかもしれない、そんな風に思ったりもします。



2014年9月17日水曜日

Mount Sinai Opens New Genomics Lab

Mount Sinai といえば、今年の5月、「PacBio現場の会」でゲストスピーカーとして招待した Dr. Robert Sebra、覚えていますか?
彼のインタビューがフライヤーになりました!
こんな感じ
展示会などで配られるはずです。


そしてMount Sinaiからまたひとつ新たなニュースが飛び込んできました。
こちらの記事ご覧ください。
先日Genome WebでPremiumユーザでないと見れない記事が、もうオープンになっていました!


Icahn Institute at Mount Sinai では、新たに遺伝子診断用のクリニカルラボを建設中です。
Roche454があった建物らしいです。
そして人間も、Roche454から引っ張ってきたと書いています。

彼らがターゲットとするのは、がんを含む様々な疾患。 
700の疾患関連遺伝子をターゲットに、26,000のアンプリコンを、Ion TorrentのカスタムAmpliseqを利用してパネルを作製しているとのこと。
カスタムAmpliseqを自由に設計(Life Techによれば設計自体は無料とのこと)できるのは素晴らしいですよね。

この記事に出てくる、Mr. Glenn Farrell、彼も5月にBobbyと一緒に来日しました。
なので早速メールしたところ、遺伝子リストはまだ公開されないそうです。
今のところ、プロジェクトの参加者内でのリストにとどめているとのこと。
いずれにしても、メーカーが販売している遺伝子パネルとはだいぶ違うでしょう。

そして注目すべきは、Mount Sinaiでは既に2台、PacBio RSIIを持っているのですが、今回、3台めをこのラボ用に購入するということです。
彼らがどうやって、PacBioをクリニカルに応用していくのか見ものです。
何てったって、このラボのトップ、Dr. Eric Schadtは、設立初期のPacBioで長年CTOを勤めただけあって、PacBioの技術には精通しているからです。
もちろん、私もフォローしていくつもりです。

これから益々PacBioもNGSも、盛り上がっていくような雰囲気を感じます!


ところで、ライフテックのAmpliseqでカスタムに設計したアンプリコンは、PacBioで読めるんでしょうか?
原理的には読めるはずですが。
誰か、PacBioで読むことを前提にした、疾患カスタムアンプリコンに興味のある方いませんかね。
一から設計したい、PacBioで読んでみたい、という独創的かつ野心的な方、いたらお知らせください。 力になります! なれると思います。

2014年9月15日月曜日

ゲノムのジグソーパズル

http://www.princeton.edu/main/news/archive/S41/01/85G88/

オキシトリカ属、って知ってますか?
Oxytricha trifallax
Ciliated Protozoa
なんて、原生生物の専門家なら常識なんでしょうが、私は初めて知りました。
ゲノム的にすごい生物なんです。

Chen et al., (2014). Cell 158, 1187-1198.

まず、この単細胞生物には、他のCiliatesの仲間と同じく核が2つあるんですね。
小さい核(MICronucleus)と大きい核(MACronucleus)
通称、MICとMAC   なんか、名前がかわいい

MICはGermlineの染色体、MACはSomaticの染色体があります。
Sexual Conjugation(何て訳すのかな?)の後、MACは消えて無くなり、新しいMACが、MICのひとつから作られるそうです。
その、MICから新しいMACが作られる過程で、想像も付かないことが、ゲノムレベルで起こっているのです。
Chen et al.
MICの染色体には、Macronuclear Destined Sequences (MDS) という配列と、Internal Eliminated Sequences (IES) という配列(それぞれ、Exon、Intronに考えが似ている)があります。
しかし、MICの染色体上では、これらMDSが、一見ランダムに位置している。
あるものは順番が異なり、あるものは向きが逆で、というように。
MICからMACが出来る際、MIC上のMDS配列はおよそ225,000ものフラグメントにバラバラにされ、IES配列が分解されたあと、MDSフラグメントは、16,000ほどの配列に順序良く並び替えられるそうです。

つまり一旦、自分のゲノムをバラバラにして、再構築する!
そして再構築にかかる時間はたったの60時間

再構築された後の16,000の配列は、Nanochromosonesと呼ばれるそうで、平均3.2kb、ひとつひとつがテロメア配列を持っている。
つまりMACの染色体は16,000本、1遺伝子1染色体?

なんともSFチックな、想像も付かない話なんですが、このMIC染色体を読んで、ゲノム再構築の謎に迫ったのが、上記の論文です。
著者の1人、Robert P. Sebra氏には、今年5月の「PacBio現場の会@秋葉原」のスピーカーでもあったので、知っているひともいるでしょう。 
早速メールで、「論文おめでとう!」
もう察しは付くかもしれませんが、MIC染色体を読むのにPacBioが使われています。


ここからはちょっと詳しくマテメソ話・・・

論文によると、彼らは PacBioシークエンス用に MIC-enriched DNAを、5μg 用意しました。
G-tubeで10kから20kを狙って断片化し、1.9μgのDNAをライブラリ調整に。
Blue Pippinで7kbカットオフ、18%の回収率。
P5-C3 で読んで、15xのデータを取得。
(MICのゲノムサイズは推定490~500Mb)

一緒にMICをIllumina HiSeq2000でも読んで、110xのデータを取得。
先にHiSeqデータをアセンブリして、145,639本のContig(N50=7.1kb)を得。
PacBioのリードは、MACゲノムデータベース(既にあるらしい)と、今回読んで得たIllumina ContigsにBLASTN検索して、どっちに分かれるか判別。
Illumina Contigsに貼りついたほうが、MACのコンタミが無い、MICゲノム由来のPacBio配列、というわけ。
次に、MIC由来候補のPacBio配列から、絞られた3kb以上の配列を、Illumina Contigs配列を使って、EC Toolsでエラー補正、そしてCelera Assembler

結果、25,720本のContigs、N50=27,807pb、最長381kbp、アセンブリサイズ496.2Mbpを得た。
15xだと、これ以上Contigs数を減らすのは難しいのか。

これにBACライブラリも読んで、精度をあげている。BACのシークエンスにもPacBioをもちろん使用!


で、このMIC Contigsで、MAC Contigsの塩基、98.9 %をカバーできた。
そして、18,405本のテロメア配列ありのMAC Contigsのうち、98.3%は、少なくとも90%以上MIC Contigsをカバー、88.1%はすくなくとも90%以上MICのsingle Contigをカバーできた。
ということで、MICとMACのゲノムが、どんな風にリアレンジメントされるのか、スクランブルされるのか、その仕組みを解析できたのです。

その仕組みは、とても複雑でここでは書ききれないほど。(本当は説明できる自信が無いから?)

3,500以上のスクランブル(「かき混ぜる」という意味。スクランブルエッグという言葉があるでしょ。)されている遺伝子とされていない遺伝子は長さに違いがあることがわかりました
また、800ほどの遺伝子はMICゲノムから発現され、それがゲノムリアレンジメント、スクランブルに重要な働きをしているらしいこともわかりました。


この研究が、PacBio無しではなり得なかった?理由は、MICのゲノムの複雑さにあります。
Illuminaリードでアセンブルしても、ゲノムにはリピートが多いため、Contigの総塩基数は392.3Mb と、想定ゲノムサイズより短くアセンブリされてしまう。
PacBioを使うことで初めて、496.2Mbを得た。
およそ20%の情報が新たに得られたことになる!


さて、この生物、池に住んでいる単細胞だからって、ゲノムは決して単純では無いことを教えてくれる。
ゲノムリアレンジメント、のモデル生物にもなるくらい。
そして、こんな複雑なゲノム構造を持つ生物は、他に見つかっていないらしい。
今はやりの、「ゲノム編集」と同じく、ゲノムをバラバラにしてもう一回アセンブルし直すという技術は、もし解明されたら素晴らしい技術革新になる可能性を感じた。

是非、フォローしたい研究!



2014年9月10日水曜日

Oxford Nanopore 騒動続く


先日のOxford Nanoporeの書き込みの中、会社の略語は、ONTでした。
間違ってONPと書いていたので修正しました。

さて、このMikheyev氏の論文発表、予想通り賛否両論出てきました。
Twitterやブログではかなり盛り上がっています。

まず、Mikheyev氏の今回の行動(MinION Access Programのデータを論文公開したこと)に対する批判がこちら


曰く、MAPは、共同研究の類であり、両者の信頼関係が大事
曰く、Mikheyev氏は、MinIONを手にしてたまたま悪いデータを取得した。それだけの話。論文にするレベルの仕事ではない
曰く、読むほうも時間の無駄

とまあ、ケチョンケチョンにけなしています。 さすが自由の国! でもちょっと大人気無い。


今までナノポアのデータが全く世にオープンになっていなかった中、結果は悪いながらも公開に踏み切ったMikheyev氏の勇気ある行為は、それはそれでサイエンスにとって良いことだと思うのですが。
これには反対の意見もあるでしょうね。

勿論、たまたま、Mikheyev氏のMinIONが不良品だった可能性もあります。
それならONT社は交換に応じれば良い。
同じサンプルを正規品でもう一回読んで、反論すれば良いだけの話、ではないでしょうかね。

で、Mikheyev氏擁護派はこちら

長文の記事ですが、ぜひ英語で読んで欲しい
ONTに関する誤解、誤報、などがまとめられています。

Mikheyev氏のとった行動は決して悪くはない! 悪いのはどっちだ!
とまあ、アンチONT的な主張。

ここで、
Myth 4. “ONT error rate ? better than pacbio but worse than Illumina.”
といのがやはり気になりますね。

PacBioよりも精度が良いって?
そんな例はまだ見たことが無い。 あるなら是非、見せて欲しい。

PacBioより精度が良いかどうかは別として、カバレッジを増やせば、それなりに精度の良いコンセンサス、アセンブリは取得できると思います。 どのシークエンサーも、カバレッジを重ねて、精度を担保していますから。


もし、Mikheyev氏が発表したデータが、とても素晴らしいデータだったら、ONT社は、彼がデータを公開したことについて批判したでしょうかね。

もし、仮にONTの結果がすごく良いデータだったとしても、私もこのブログで紹介していたと思います。 ええ。 本当に。 しつこい?

PacBioにとって脅威になるかもしれませんが、それはそれとして。
そしたらブログの名前変えようかな? (冗談)


2014年9月8日月曜日

情報公開はEarly Accessでも必要か Oxford Nanopore

池上彰さんが、朝日新聞の連載に、朝日を批判する意見を書いたら、掲載を断られたそうです。
で、池上さんが、「長年の信頼関係が崩れた」と、連載の中止を発表。 
そしたら一転、朝日新聞側は謝罪、掲載されるようになったと。
でも後を引いているようですね。

報道の自由、表現の自由、というのは、サイエンスの場でもあると思います。
それは企業であっても、一度、オープンにして良い、という条件を提示したら、協力者がどんなことを発表しても受け入れなければいけない。 それくらいの覚悟を持たないかぎり、やってはいけないんです。



昨年の終わり、Oxford Nanopore Technologies (ONT)社が、Early Access Programを開始しました。
ここの説明が詳しいです。
いくつかの候補サイトに、MinIONを送付、指定のLambdaサンプルと、ユーザの好きなサンプル、の2つをMinIONを使って読むことができる、プログラムを開始しました。

データの開示にはいろいろ条件・契約があるみたいですが、先日論文がなんと日本から出ました。


びっくりしました。 沖縄・ぜんぜんノーマークでしたよ。
著者はOISTのAlexander S. Mikheyev博士
Lambdaのリシークエンスと、ヘビのcDNAアンプリコン(彼らのサンプル)を読んだそうです。

で、内容を読んでもっとびっくり。
かなり詳細に、プロトコルからデータ、解析結果まで書かれているんです。
それもかなりONTに不利な内容。

もちろん、「これは初期のONTデータなので、将来改善されると思う」とは断っています。
Lambdaのリシークエンスのデータは、サンプル調整に半日、シークエンスに36時間かけて出来た150Mbの生データは平均リード長5Kb
ここまでは良い。

でもリファレンスにアラインしたら、10%のリードが、相同性2.2%と8.9%でマップされた・・・って。
(2つあるのは読み方の違い。同じDNAを1回しか読まないか、2回(+鎖と-鎖)読むかの違い)
でも、精度と呼べるレベルかはわからないけど、10%の相同性って、どう評価してよいものか。

cDNAアンプリコンのほうはもっとひどい。
24時間のシークエンスで1,429本(1回の読み方)と、16本(2回の読み方)のリードが出力
たったそれだけ?
1429本のリードのうち、BLASRでアラインしたのは10本、BLASTNでアラインしたのは21本

もちろん、彼らのマッピング方法が最適ではない、という指摘もあるでしょう。
Nanopore用の解析ツールを使っているのかどうかも不明です。
例えばこれ poretools

ONTのデータは、フォーマットが特殊で、fast5というバイナリで出てきます。
これをFASTAやFASTQに変換する。
FASTQファイルも、中身が空っぽのファイルが結構ありますし、まだ扱いにくいし情報も少ない。


彼らのデータは、とても現実のシークエンス解析に使えるほどの質を持っていないことが明らかになりました。
実は、噂で、別のユーザが似たようなデータを出していると聞いていました。
そのデータと、今回の論文のデータが、出力、マップ精度共に非常に似ているのに驚きました。


というと結構アンチONTになってしまうので、バランスを取るため、「いや、そんなにナノポア悪くないよ」という例をひとつ

これは私が実際、6月に聞いてきた、Histogeneticsという会社の発表です。
彼らが読んだサンプルは、LambdaとHLAアンプリコン
Lambdaの話はしていませんでしたが、HLAアンプリコンのほうは、実際のデータをひとつ出していました。
平均リード長5kb、そのうち何本がマップされたとは言っていませんでしたが、マップされたリードのマッピング精度は50%、そしてInDelエラーがかなり多かった。
「この段階ではまだとても解析には使えない。ロングリードが必要ならPacBio使え」 と言っていましたが、10%の相同性というほどひどくは無かったようです。

どうなんでしょうねえ。 実際のところ、エラーはかなり多いみたいですが。
今後も色んなところでデーがぼちぼち公開されるでしょう。


で、最初の話に戻りますが、サイエンスはオープンであるべきだと思います。
企業が、科学者に評価を頼むとき、いろいろ条件はつけるでしょうが、基本はその科学者の自由に任せて発表してもらうのが筋でしょう。

しかし、ONT本社は、彼らの評判を下げるようなデータを公表した(実際データはここから取得できる)、OISTのMikheyev博士を、MAP(MinION Access Program)から脱退させたとのことです。

くわしくはこちら

We therefore can only conclude that your objectives and outlook are fundamentally misaligned with those of the MAP programme and the other participants.

つまり、俺たちの都合の悪い発表はしてくれるな、ということなんでしょうか?
だったら、もっと先に人を選べばいいのに。

これは揉めるだろうなあ

Twitterでも炎上、まではいかないけれど、賛否両論あると思いますよ。


2014年9月4日木曜日

シングルセルWhole Genome Amplification シークエンス

先日も少し紹介しました「De Novoの達人」論文が、GenomeWebで紹介されました!
InComparison of De Novo Assembly of Bacterial Genomes, PacBio System Comes Out OnTop
パチパチパチ!
「De Novoの達人」と言えば、Vibrio parahaemolyticus のゲノムを、PacBio RS, Illumina MiSeq,  Ion Torrent PGM, Roche 454 GS Junior で読んで、そのアセンブル結果を比較した、昨年の「NGS現場の会 in 神戸大会」の企画ですよね。
その結果、PacBioが一番良かった。
ダントツに良かった。

バクテリアゲノムアセンブリには、PacBioが最も良い。 
rRNA遺伝子オペロンは5~7kb、これがゲノムに何箇所もあるとしましょう。
どんなにペアエンドでカバレッジ稼いで読んでも、ショートリードではつながらない。
PacBioの超ロングリード(P5C3試薬は平均8500bp)であれば問題ない!

目的によりますが、PacBioはすごいんです。

--------------------------------------------------------------
さて、話は変わってシングルセルの話題。
最近熱いですよね。

シングルセルからのゲノムまたはmRNAを、NGSを使って読む、という技術。
今日はゲノムに絞ります。

ゲノム全体を増幅する技術のことを、Whole Genome Amplification (略してWGA)と呼びます。
なぜこんなことをするのかというと、単離したがん細胞や、培養が難しいバクテリアのような、一細胞のゲノムを読みたい、というニーズがあるから。
がん細胞は、一細胞でのゲノムがユニークです。正常細胞との混ざりものゲノム解析は、出来れば避けたい。
難培養バクテリアの場合も、NGSに必要なゲノム量を確保するのが困難です。

シングルセルを取ってくる技術として、例えばがん細胞、特に末梢血中のがん細胞 CTC(Circulating Tumor Cell)、を採取する機器があります。(例えばMMI CellEctor Plusとか)
難培養菌の場合はもっと、機械に頼らないマニュアル的な採取方法があると思います。(機械があったらごめんなさい)

というわけで、一細胞を取ってくるまでは、何とかできる。
次にWGAでゲノムを増やします。

これは、MDA(Multiple Displacement Amplificationの略)という方法で増やします。 
NDAではありません。こっちはNon-disclosure agreement、秘密保持契約。 余談ですが、最初聞き間違えて、全く話がチンプンカンプンになったことがあります。皆さん、初めて知らない略語に触れたら、恥ずかしがらずに聞きましょう!

MDAは、Phi 29ポリメラーゼを使って、DNA二本鎖をはがしながら増幅していく、PCRに頼らない増幅方法です。 
これは色んなウェブにわかりやすい説明が載っているのでわからないひとはググろう!

キットとして販売されているものでは例えばキアゲン社のREPLI-g Single Cell Kit があります。

このカタログには、

  1. シングルセルからの最大のゲノムカバレッジでの全ゲノム増幅
  2. MDAテクノロジーによりゲノム遺伝子座の偏りの無い増幅
  3. 次世代シークエンシングのような新テクノロジーでの使用に最適
  4. 最大40μgまでの一定した収量(増幅産物長さの平均は>10kb)
とありまして、特に4番目の項目がPacBioには魅力的です。


とは言っても、一般的にMDAには問題もあるようです。

バクテリアのシングルセルからのWGAアプリケーションの述べたレビューがあります。

Lasken et al.,
Nature Reviews Genetics 15, 577?584 (2014) doi:10.1038/nrg3785

Lasken et al.
この論文によると、WGAによって、シングルセルからリファレンスゲノムが得られた難培養バクテリアは、Atribacteria (OP9)、Hydrogenedentes (NKB19) などがあるそうです。
Graig Venter博士らのグループは昨年、TM6という新規門に属する難培養バクテリアを病院の流しから採取、WGAでゲノム決定しています。
MacLean et al., June 25, 2013 vol. 110 no. 26

このような成功例はあるものの、一般的に、WGAによるアセンブリはかなりフラグメント化されてしまうそうです。
理由は、増幅バイアスです。
ちょっとの増幅のされやすさ、されにくさが、指数関数的にリードの差を生んでしまいます。
何しろ1セルのゲノムが最終的に10億倍にも増えるんです。
カバレッジが均一でないサンプルを読むわけですから、アセンブリも難しいのでしょう。

また、コンタミを防ぐためクリーンルームが必要というのも注意点です。
コンタミしたPlasmidを一生懸命増幅して読んでいた、なんてことになりかねませんから。

とは言うものの、もし、目的のゲノム配列だけが安定して増幅できれば、WGAは素晴らしい技術でしょう。
この世界は予想がつきませんから、どこかで開発が進んでいるかも。



2014年8月30日土曜日

Iso-Seq WholeかTargetか

大阪は梅田、阪急三番街。 新阪急ホテルとの間に地蔵横丁がある。
うっかりすると通り過ぎるような、小さい路地。
そこの角にある、「玉五郎」というラーメン屋に入った。

カウンターのみの店だが入りやすい雰囲気。
先に食券を買って店の入り口に並ぶ。 結構混んでいる。
店内、3分の1は女性客で、私の隣も女子1人だった。

煮干のだしがきいた豚骨ラーメン。 つけめんは結構太麺。
お勧めはチャーシュー、煮玉子入りの特製ラーメンと水餃子。
味がしっかり濃いので、飲んだ後のシメには向かないかな。
がっつり食べたいときにおすすめ!


さてさて、らーめんとは関係ありませんが、Iso-Seqの話をします。
アイソフォームシークエンス、の略で、いわゆる転写産物のAlternative Splicingを、PacBioで一気に読んで解析しようというアプリケーション。
以前も少し紹介しましたね。
ここで


スタンフォードのチームは、ヒト幹細胞を使い、転写産物の本来の姿、アイソフォームの姿を明らかにしようとしました。
RT-PCRでcDNAを作り、そこから直接PacBioライブラリを作製、34 SMRT Cell使ってシークエンスし、ゲノムにアラインしたら10%が新規のアイソフォームだった、というお話でした。

彼らの研究の続編がこちらです。


こちらもヒトの細胞株を使ったWhole Transcriptomeです。
この論文は、ある意味すごい。
今、PacBioのIso-Seqプロトコルでは、全長cDNAを作製した後、PCRで増幅し、その後ゲルに流すなどしてサイズセレクションするんです。
1-2kb、2-3kb、3kb以上、という風に分画し、サイズを分けてそれぞれのcDNAを回収する。
回収後はさらにPCR増幅し、1μg以上の量に増やす。

そしてサイズごとに分けてライブラリ作製 → シークエンス、という流れです。

なんでサイズに分けるかというとですね、前にも書いたかな? サイズによってZMWウェルの中への入りやすさが違うからです。
これを「ローディングバイアス」と言います。
短いライブラリほど、優先的にウェルに入る傾向にあるから、できるだけサイズをそろえてあげて、別々のセルで読む必要があるのです。

しかーし、ここに問題があります。

増幅バイアスです。

PCR増幅されやすいライブラリ配列は、どんどん増幅され、指数関数的に増えていきます。
つまり、転写量はわからなくなります。

というわけで、スタンフォード大のDr. Tilgnerらは、増幅していません。
ローディングバイアスと増幅バイアスを天秤にかけ、どちらを取るか。
転写産物の量をできるだけあるがままに解析するには、増幅はしないほうが良い。
という判断のもと、サイズセレクションはしませんでした。

数百万もの細胞を使って大量にRNAを抽出、RT-PCRでcDNAにしたあと、できるだけ増幅バイアスをかけずにライブラリを作製、シークエンスしています。

1株につき32セルを使用し、711,000本のCCSを取得、これらをゲノムにマッピングした例が下の図です。
Tilgner et al.
Exon-Intronがはっきり分かれてマップされているのがわかりますね。
これ、1本が、1分子のRNA (cDNA) を全長で読んだ結果なんですよ。
アセンブリしていません。

このような図は、もちろんサイズで分画したライブラリでシークエンスしても得られます。
誤解の無い様付け加えると、このようなWhole Transcriptomeの実験でも、サイズ分画した例はいくつもあります。 論文も出ています。
むしろPacBioとしては、どんな場合もIso-Seqは、サイズ分画を勧めているくらいです。
それは先ほど説明した、ローディングバイアスを避けるため。
アイソフォームの量よりも、種類を得る目的に使用してもらうためです。
なのでIso-Seqは、「新規のアイソフォームの種類を発見しよう!」という目的に向いています。

さて、Dr. Tilgnerらの論文は、HiSeqのデータも持っているので、アイソフォームごとの発現量推定も行っていますし、さらにアレルごとの転写産物解析にもチャレンジしています。
とはいっても結構、シークエンスコスト、解析コスト共にハードルが高いので、現実的かどうかは意見の分かれるところです。


Whole Transcriptomeはちょっと・・・ フルコースより単品が良い、ってひともいるでしょう。
見たい遺伝子はある程度決まっている。
他の遺伝子はあんまり興味は無い、というかた。
ターゲットIso-Seqはいかがでしょう?

この論文は、特定の遺伝子にフォーカスしてSplice Variantをシークエンス解析した例です。


完全長の neurexinの遺伝子配列を特異的プライマーで増やし、シークエンスします。
あらかじめ大体のサイズがわかっていますから、コントロールしやすいですね。

転写産物の長さは、4~5kbらしいです。結構長い。
PacBioシークエンスは少なくとも1パスは完全に全長を読んでいたものだけを解析に使用しています。
そうして参照配列にマッピングしたあと見てみると、Nrxn1αについては取得できた2,574本の完全長cDNAから247種類のアイソフォームを分類できました。
Treutlein et al.
ターゲットIso-Seqの利点は、全トランスクリプトームを対象にしているわけでは無いので、セル数が比較的少なく済む点です。

これは論文に出てくる数字をまとめたものですが、使用したセル数にばらつきがあるのがわかります。
6セル使ったライブラリのサイズは4.5~4.7kb、比較的長い。
1.5kbくらいのライブラリに対しては、2,3セルで十分量のデータが得られているとのこと。

Movie時間が90分ですが、今(2014年8月現在)は最高180分まで読むことができます。
なので、今同じ実験を組んだら、セルの数はもっと少なくて済むはずです。


Whole Iso-SeqかTarget Iso-Seqか?

目的によって分かれるでしょうが、どちらにしても、遺伝子の転写の姿が、アイソフォームの姿が、今までよりはっきりとわかる、このアプリケーションはとても魅力的だと思いませんか?

実際使ってみたい!
こんなふうな実験は可能か?
といったアイデアがある方は、お知らせください。
ディスカッションしましょう!


2014年8月21日木曜日

「De Novo の達人」がついに論文に!  時期を同じく羊土社からもNGS特集号が!

高槻に来ています。 でもホテルは「たかつき京都ホテル」って、高槻は大阪なのか京都なのか?
シングルが満室だそうで、同じ値段でツインにアップグレードしてくれました。
しかし、独りでツインはちょっと寂しい。

さて、皆さんは覚えているでしょうか?
昨年のNGS現場の会、「De Novo の達人」という企画。
同じサンプルを、Ion Torrent PGM、Illumina MiSeq、PacBio、Roche Juniorで読んで、達人3人がそれぞれ得意なデータを選んでアセンブルするという企画。
そして達人たちには、読んだサンプルが何なのか、ということは知らされず。

そこで見事、PacBio のデータだけを使い、正確にContigの数とサイズを当てたのが達人・笠原氏。
Master of De Novo!! わーい

で、その内容が論文になりました。



いいですねえ。こういうの。
内容については、競合商品ついて突っ込むことになって、ちょっと立場的にアレなので、皆さんで読んで下さい(笑)

そうそう、羊土社からもNGSの特集号が出ます。
『次世代シークエンス解析スタンダード』

PacBioに関しても書かれていますよ! 目次を見て下さい。リンクはここ

---------------------------------------------------------------------

Ⅴ プロトコール 環境・進化・生物資源

1 難読領域を含む微生物ゲノム完全長配列をde Novoに決定する PacBio RS Ⅱを用いたアセンブル【寺林靖宣/照屋邦子/佐藤万仁】

-----------------------------------------------------------------------

いいですねえ。

えっ、私は何もしていないって?

この本に広告を出しています。デザインしました。
こんな感じに。

ちょっといいんじゃない?
でもI社には負けるかな。フォトショップがあれば・・・  これがパワポの限界?
次はもっとがんばります。

2014年8月13日水曜日

学会・技術セミナーのお知らせ(2014年8月9月)

パンケーキ、って今、はやっているんですか?
今テレビでやっているんですが、原宿のハワイアンパンケーキがすごい人気だそうですね。

10年以上前に、私がアメリカ・カリフォルニアに留学中、すごくおいしいパンケーキ屋さんがあったんです。
ボリュームがまさにアメリカンサイズで、一食分には多すぎるので、土曜のブランチに何回か行きました。
誰と行ったかって? 
 

パンケーキの話はこれくらいにして、今日はセミナーの宣伝です。


8月19日(火)、東京 「タカラバイオ技術セミナー・NGSを用いたトランスクリプトーム解析の最近の話題」 (くわしくはこちら
→テーマはIso-Seq、トランスクリプト全長解析です。一応、私が喋ります。

8月22日(金)、高槻 「日本進化学会第16回大阪大会・シンポジウムS3:エピゲノムが進化する」
詳細はこちら
→PacBio社から塩基修飾解析担当のDr. Khai Luongが話します。 彼女は25日(月)、東京にいますので、学会で話した同じ内容でセミナーをしてもらおうかと考えています。
25日、朝10時に東京のオフィスに来れる方で、PacBioの塩基修飾解析に興味のある方、お知らせください。 場所は根津です。

9月10日(水)、札幌 「66 日本生物工学会大会 ランチョンセミナー」 (おしらせはこちら
→タカラバイオ株式会社のランチョンセミナーです。 テーマがPacBioなのでここに入れてもいいかなと思いました。 私も参加したいです!

9月28日(日)、29日(月)、静岡 「第8回 日本ゲノム微生物学会若手の会」
→ディナー・ランチョンセッションで、私は行きませんがトミーデジタルのほかの社員が話します。ポスターもあるかな。 
若手の会ならではの雰囲気でディスカッションできると思いますよ。

10月はまたいろいろありますので、随時お知らせします!


ところで、パンケーキって、パンケーキそのものの味は、どこも大して変わらないですよね。
意外とシンプル。

ということは、要は盛りですよ。 イチゴやメイプルシロップ、くるみ、バナナ、ラズベリー、クリーム…。
どれだけきれいに、おいしそうに盛るか。
盛ってきれいにデコって、写メ撮って、食べておいしければ印象に残る。
何となーく、女子に人気があるのがわかる、気がする。

2014年8月9日土曜日

久しぶりに若い刺激をもらいました

こんなタイトル↑を書いている時点で老いていると思われそうですが、気持ちは20代です!

「第8回 細菌学若手コロッセウム」 に参加して来ました。

ニセコという、北海道のみならず日本を代表するリゾート地での、2泊3日の合宿セミナー。
そしてテーマは細菌学に絞られずに、今回は広く、「・・・若手の会」を代表する角界のエースを集めたエースセッションなるものも行われました。
そんな中、私も、PacBioをテーマにランチョンをしてきたわけです。
ランチの中身がすごかった。 見てくださいよこの豪華さ! 


これに、スポンサーをやっている飲料メーカー数社が、飲み物を提供してくれるんです。
だから参加者は、飲食はほとんどタダ。

で、ランチョンの中身ですが、これくらい豪華・・・とまではいかないけれど、合格点だったかなあという感じですね。
参加者は、必ずしも次世代シークエンサーを使っているというわけではないことが、行きのバスで隣になったひとからわかりました。 うーむ、少し説明が必要だなあ。
ということで、TOMYがなぜシークエンサーやっているのか、Pacific Biosciences とはどんな会社なのか、そのあたりから始めました。

これは、PacBioの本社がFacebookの近所にあるよ、ということから入ろうかと思って作った表紙

これは、各シークエンサーの、リード長とランあたりリード数をグラフにした絵を良く見るけれど、縮尺が良くない! と思っていたので、描き変えた

ちゃんとしたテクノロジーや論文紹介もありますよ。例えば今年上半期の有名なメチレーション論文について

ただ、ランチョンというのは頭を休めるためのセミナーですので、硬くならない程度の話にしました。

ランチョンには入れなかった、アプリケーションに、16S全長シークエンスがあります。
今回も、セッションの後半はメタゲノムの話が多かったのですが、メタゲノムの主流はやはりrDNAの16S配列解析です。
16S配列でも、Variable Regionと呼ばれる配列の一部をシークエンスして、細菌の系統樹解析を行います。
今の研究者の大まかな意見では、MiSeq、Ion PGM、このベンチトップシークエンサーでかなり正確かつ十分にメタゲノム解析はできる、ということらしいです。
もちろん目的にもよるでしょうね。

PacBioみたいに、16Sの全長配列を読むことが必要になるときはあるのでしょうか?
16Sだけでなくても、細菌分類に必要な配列であれば何でも良いのですが・・・。
1遺伝子の全体を読みきることは、10Kbくらいなら問題ありません。
誰かやりたいひといませんかね。

さて、シークエンスメーカーは他にも、イルミナさんとライフテックさんが参加していました。
企業ならではの「あるある」話。 
アカデミアの博士課程の若手に、将来の進路、もし企業に来たら・・・ などの話をして、人生の先輩ぶることもしてきました。

そして2夜連続の飲み会は3時まで!
泊まりだと、安心して飲んじゃうんですよね。
でも翌日は朝のセッションからちゃんと参加しましたよ。
ここは、会社で鍛えられましたから。

そして、普通の学会ではありえないんですが、研究者以外の特別ゲストとして、石川 雅之先生が参加されました!
この分野なら知っていますよね?「もやしもん」 
とっても気さくでおもしろい、サービス精神溢れる方でした。
参加者全員に名札を書いてくださり、多謝! (最初の写真に写っているやつがそうです)


北海道大学
人獣共通感染症リサーチセンターのお土産
クリップと、エボラウイルス型ストラップ


それから最後に、若コロ運営スタッフの皆様、本当にお疲れまでした!
今回ランチョンに呼んで頂き、ありがとうございました!


追伸

まだ北海道満喫してます : )




2014年7月24日木曜日

いまさらですが、復習 PacBioの特長とは?


梅雨が明けたら猛暑
そんな時は、アイスです!
私がジャイアントコーンの次に好きなアイスは雪見だいふくなんですが、これのレシピが公開されているんです!
ここ
早速作ってみよう! と思ったけれども、もちが無い。 
近所のCoopにも、無い。
イオンまで行くのは面倒だな、と思っていたら余計食べたくなったので、さっきコンビニで買ってきてしまいました。 雪見だいふくを。 いったい俺は何をしているのか。
・・・ ぜんぶ雪のせいだ (若干古い)


さて、突然ですが、PacBioシークエンスの特長といえば何でしょう?

横幅2mとか、重さ1トンあるとか、高純度の窒素ガス使うとか、そのあたりは見た目ですね。

DNA合成をリアルタイムで観察できるとか、増幅無しで一分子で読むとか、C3とかのケミストリーを思いつきますか?

それとも、直径50nmの超小型ウェル・ZMWや、15万のウェルにピンポイントでレーザーを照射する、光学機械系を思い浮かべますか?

解析サイドからいうと、以下の3つが大きいと思います。

  1. どのゲノムもほぼまんべん無く読めること (読めない配列、というのが(多分)無い)
  2. エラーがランダムに入るのでコンセンサスの精度が極めて高いこと
  3. どのシークエンサーよりも長く読めること 

1は、良く言われる、GCバイアスが無い、ということと同意義です。
(GGC)n の連続配列も問題なく読めます。
読み取る直前に増幅しないので、テンプレート通りに読み進むことができます。
(多分)と書いたのは、理論上は読めない配列は無い、と思うけれど、実際リード長を超える長さのリピートがあった場合、それを確かめる方法が無いから。

何を言っているかというとですね、何でも良いのですがリピートが100kb連続していたとします。
PacBioは最高でも30kbくらいですから、100kbのうちのどこか、本当は読めていない配列があったとしてもわからない、確かめようがないからです。

営業的には、「読めない配列は無い!」と言い切りたいのですが、そう言うと、上記のような突っ込みが入るかもしれないので、最初から断っておきました。

2は、これも、理論的にはランダムにエラーが入ると言われています。
しかーし、
ユーザからは、「ランダムではないよ」、という声も実はあったりする。
まだ、ポスターや論文になっていないので詳しくはNGですが、もしそうなら、インパクトあるかもしれませんね。
でも、そのような発表があるまでは、「エラーはランダムです!」 ということに。

ランダムエラーだから、カバレッジを重ねたときのコンセンサス精度は99.999%に達する。
たいていのバクテリアゲノムアセンブリで、これくらいの精度にはなると思います。

3は今さら言うまでも無いですね。
平均リード長 8,500bp
N50リード長 10,000bp超
最長 30,000bpくらい

です。

これだけ長ければ、リボソームリピートやトランスポゾンをまたぐことは普通ですよ。



ここで、メーリングリストのお知らせです。

Plant and Animal ゲノムのメーリングリストがオープンしました。ここから


時代はバクテリアのその先へ!
ということなのでしょうかね。
大型真核生物のゲノムアセンブリはPacBioをもってしても、チャレンジングなフィールドです。
ここに登録すれば、定期的に有益な情報が得られるかも?


2014年7月23日水曜日

HiSeq X Ten がんばる

以前、私のブログにも登場した、HiSeq X Ten
最初は何て読むのかなと思っていましたが、ハイセック・テンでいいみたいです。
ヒトゲノムリシークエンスに特化したHiSeqを、10台でセットにしたシステムです。

今、どこに入っているのかなーとウェブで調べてみたら、このサイトにまとまっていました。

  • Broad Institute (Cambridge, MA, USA)
  • deCODE Genetics (Reykjavik, Iceland)
  • Garvan Research Foundation (Sydney, Australia)
  • Human Longevity, Inc. (San Diego, CA)
  • MACROGEN (Seoul, South Korea)
  • New York Genome Center (New York, NY, USA)
  • Novogene (Beijing, Chaina)
  • Sanger Institute (Hinxton, UK)
  • WuXi Pharma Tech (Shanghai, China)
なんともう9システムも!
中国は2箇所で導入していますね。どちらも企業というのが驚きです。
韓国も企業です。

オーストラリアのGarvan研究所は、1週間に350ゲノム、年に18,000ゲノムを読むことができる、と書いています
実際、10台のHiSeqXから出力されるデータは3日間で1.8Tb
1日で30カバレッジのヒトゲノム解析を可能にしたと、イルミナ社のドキュメントには書いてあります。

どんなところが買うのかなーと注目していたのですが、やはり大きな研究所は買っていますね。
Human Longevity, Incという会社は、あのDr. Craig Venterが共同設立者で、ヒトゲノムを年間10万人分読むという計画の下、HiSeq X Tenシステムを2システム、導入するそうです

このシステムの特徴は、ヒトゲノム専用機械だということ。
ヒト以外のいろんな生物のゲノムアセンブリや、ヒトでもExomeやRNA-Seqなどには使用出来無いという制限があるそうです。

さて、次にこのシステムを買う研究所は、中東、カタールのSidra Medical and Research Centerです。
アラブ人のヒトゲノムデータベースをそろえるのでしょうか。
世界各地で今やホールゲノムシークエンスブームですね。

そんな中、「1000ドルゲノムが可能に!」 というキャッチフレーズは、個人的には嫌いです。

先のドキュメントには、「システム償却費、シーケンス消耗品、DNA抽出、サンプル調整、そして典型的なハイスループットゲノムラボにおける人件費(予測)を含めて1000ドルゲノムを可能にしました」
とあるんですが、「償却期間および人件費は機関の会計基準およびリソースによって異なります」
とも書いてある。

恐らく、国内営業的には、日本の会計基準に合わせ、日本の試薬コストや人件費を考慮して、プレゼンをしているのでしょう。
そうすると余計、1000ドルゲノムを達成するには、十数億円の投資を考えると、フルに動かしても4、5年はかかるのでしょうか?

アメリカでの試算がここにあります。
これによると1000ドルゲノムを達成するには4年間で72,000サンプルをフルに読む必要がある。
72Mドル・・・・・
システムが10Mドルとすると、ランニングコストが67Mドル
そこに人件費、光熱費、試薬代、すべてが含まれます。

ここで言う1000ドルゲノムには、データストレージ、解析サーバ類は含まれません。
結構なデータ量になりますよね。


何かこう、最近の「1000ドルゲノム」とは、言葉遊び、数字のトリック、が氾濫している気がするんです。
もっと良い指標は無いものか、と思うしだいです。


2014年7月20日日曜日

コスト比較は気をつけよう

1週間に1度、更新するつもりが、6月に1回書いてからもう7月も後半!
何と! 一日のページビューが100を下回っていたことに気がついたので慌てて書くことに。
言い訳すると、最近Twitterにはまってまして。
そっちで誰かのをリツイートして満足していました。

さて、先週の金曜日、「164委員会」という会員制セミナーで、各シークエンサーメーカーや機器メーカーを集めたNGSセミナーがありました。
残念ながら私は参加せず、別の者がPacBioの紹介を。

聞くところによると、PacBioのコストに関する質問が出たそうな。
「ヒトゲノム50xのデータをPacBioで出すのに、いくらかかるか?」

まあ、この手の質問は良くあるんですが、HiSeqやProtonのコストと比較するのはナンセンス、とまでは言わないけれど気をつけなくてはいけなんです。
これを読んでいるひとは何となくわかると思いますが、目的が違う。

ヒトゲノムを
PacBioで50x読んだら、デノボアセンブリ ができる
HiSeqで50x読んだあとは、リシークエンス 

ヒトゲノム(に限らずギガbp単位のゲノム)をデノボアセンブリしようとするのは、はっきり言って、大型プロジェクトですよ。
ワシントン大学のCHM1ヒトゲノム57xも、いろんな研究所との共同研究。
そして彼らのアセンブリサイズは3.25Gで、今までの2.83Gより長かった。
ということは今まで読めていなかったところが結構あったということ。
リファレンスゲノムを疑って、今まで読めなかったところを読む、そういうチャレンジングな目的で使うのです。
(リファレンスゲノムを信じて、それにマッピングして例えばSNPを見つけようというのであれば、ショートリードを選んでください。)

ワシントン大学がやっている同じことをPacBio無しでやろうとすると、NGS用に何種類もライブラリ作って、BACやFosmidも用意して・・・と、膨大な手間と時間とカネがかかってしまう。
ヒトゲノムプロジェクトをやり直すわけですから。
少なくともそのかなりの予算をPacBioに与えれば、大分時間が節約できるでしょうね。

と、まあ具体的金額に触れずに書いてきましたが、現実的なコストで言うと、3Gbの50xカバレッジで1000万円~2000万円と言ったところでしょう。
1000万も幅があるのかよ!
と突っ込みを入れられそうですが、ライブラリのクオリティが良いか、とか、腕がうまいかどうかとか、いろいろ条件があるので一概にいくら、と保証できる数字は書きません。
これに、試薬やキットに含まれない、周辺機器を使うコスト、人件費、光熱費その他、がかかります。

シークエンスにかかる時間は、3時間Movieを8個のSMRT Cellで24時間+試薬調整、ベースコールや転送にかかる時間も混みこみで+4時間=28時間
これを50回分ランするとして、1400時間
単純に24で割るとおよそ59日
実際は土日や深夜に出てきたくないから、3ヶ月くらい?

このコストと時間を、リシークエンスだけに費やそうというのは、結構贅沢です。
どうしても他のテクノロジーでは読めない部分を読みたい、という強いモチベーションと資金が必要ですね。
とりあえず全ゲノム読んでみよっか? みたいな使い方はできません。


できることが違うのだから、同じ条件で比較しても、見ているのは全体のほんの一部。
イタリアのスーパーカー・フェラーリと、日本のハイブリッドカー・プリウス。
前者の売りはラグジャリーとステイタス、後者の売りは環境と安全性能。
同じ車でも、燃費で比較するひとはいませんよね。
(ちょっと違うかな?)


NGSを比べるとき、「Gbあたりのコスト」って、良く目にしません?
たいていHiSeq2500が圧倒的にコストが安く、書かれているんですよね。
でも今度からは、Oxford Nanoporeも参加しますよ。 
彼らのPromethION は、2000 channelsから、 毎分1Gb出すそうですからね(https://twitter.com/mason_lab/status/479763895238672384)。

Oxford Nanoporeの話はまた今度するとして、コストの比較を書くとき、こんなのはどうだろう?
「1000bp以上のリードに限ったときのGbあたりのコスト」
これなら当面、PacBioひとり勝ち。相手はSangerくらいですから。
Moleculoがあるって? なーるほど。 でもキット・試薬はいくらかかるんでしょう。





2014年6月23日月曜日

PacBio アメリカ東海岸ユーザーミーティングから

私は参加していませんが、メリーランド大学にて先週、東海岸ユーザーミーティングがありました。
毎年アメリカでは、東海岸と西海岸で1回ずつ、ユーザーミーティングを行っています。
今年の東海岸はとても盛り上がったそうです!

あの有名なBio.IT World というE-雑誌にその様子が載っています。

PacBio Users Share New Tools and Applications at Meeting in Baltimore

今日はこの記事からの翻訳&引用です。 訳が変なこともあるので、英語に自信があるひとは上のリンクを直接読んでくださいね。

-----------------------------------------------------------------------
スクラッチからホールゲノムへ

SMRT シークエンスによって一番大きく進歩した分野は何といってもデノボアセンブリでしょう。
「一年前の論文ではまだ、PacBioを使ってのデノボアセンブリのメソッドが、テーマに書かれていました。 現在は、実際にたくさんの成果が出てきています」
と、Business Development部長のLuke Hickeyは言います。

ショートリードテクノロジーはほとんどがリファレンスゲノムの配列に影響するのに対し、ロングリードはスクラッチからのゲノム再構成をとても楽にします。
メリーランド大学のLuke Tallon氏は、E.coliゲノムを、ギャップの無い完全なContigを完成させるために必要とされる最低ロングリード長は、5Kbから7キロKbであることを見つけました。
この長さは今のPacBio最新試薬をもってすれば何でもありません。
リードの半分は10Kbを出力するからです。
デノボアセンブリは、構造変異検出に必須です。これはリファレンスに頼るアセンブリ方法ではできません。

Tallon氏らのグループは、NCBIのGenbankに登録されている疾患・治療に関係する微生物ゲノムの再解析を、PacBioを使って読んでいます。
最初に読んだStaphylococcus aureus(黄色ブドウ球菌)50サンプルでは、彼らは32のサンプルについて1本のContigにすることができ、ゲノム解析を一層簡単に進めることができました。
彼らは現在、550種類の異なる微生物ゲノムを解読するプロジェクトを進行中です。

Tallon氏らの仕事は、微生物学者の仕事を楽にするかもしれませんが、PacBioシークエンサーをもっとアクティブに使っているユーザもいます。
国立ヒトゲノム研究所のSean Conlan氏は、carbapenem-resistant Klebsiella pneumoniae(カルバペネム系抗生物質耐性肺炎桿菌)のアウトブレイク研究について報告しました。
他のアウトブレイク同様、これも発生源や感染経路が複雑で、数十種類のPlasmidを持ち、うち2つはcarbapenem-resistantの遺伝子を持つ、という厄介ものでした。

異なる患者から単離した、バクテリアとPlasmidの関係性をトレースするため、染色体とPlasmidのキーとなる配列部位を確実に読むため、十分なカバレッジを担保しつつ、大量のサンプルを読まなければいけませんでした。
PacBioシークエンサーは、これらPlasmidと染色体ゲノムを完全に読み終え、アウトブレイクをトレースするのに十分なデータを提供しました。
現在は、ショートリード、ターゲットPCR、オプティカルマッピング、といった他の技術も取り入れ、データの精査をしているところです。

Conlan氏は、今までのリファレンス配列を覆すかも知れないと信じています。 特に抗生物質耐性のPlasmidにある繰り返し配列など、複雑な配列についてです。
「この精度のデータを手に入れたなら、あなたの見ているリファレンスは間違っているかもしれない、とあなたは疑うことでしょう」


ヒトゲノムへ

バクテリアやアーキアのようなスモールサイズなHaploidゲノムアセンブリは、もちろんPacBioの得意とするところですが、私たちのユーザはもっと複雑な生物のゲノムシークエンスに興味をシフトしています。
これまでも、ハエ、ホウレンソウ、ヤギ、そしてヒトを読み、そのデータも公開されてきました。
ヒトゲノムのデノボアセンブリは、これまで普通に行われてきたRiference-guidedのリシークエンスよりも、得られる情報は多いはずです。
コールドスプリングハーバー研究所の遺伝学者、Richard McCombie氏曰く、「ヒトゲノムのリシークエンスは、3,000ドルかければIllluminaマシンでホールゲノムを読めてしまう。その点においてはすばらしい。しかしIlluminaではいくつかの構造変異情報は失われるし、いくつかのゲノム箇所は読めない」

PacBioシークエンサーによるヒトゲノムプロジェクトで興味をそそるものと言えば、ワシントン大学ゲノム研究所で行われているものでしょう。 (このブログでも以前登場)
妊娠時に精子のゲノムだけが胚に移ったという、非常に稀な、Haploidタイプのヒトゲノムです。
このゲノムをPacBioで大量に読んだ結果、今のリファレンスで粗く読まれている場所について、たくさんの改善が見られました。
このサンプルのアセンブリ結果は、N50が4Mbpに達し、この数字は今まで読まれたヒトゲノムのなかで最長の長さです。
ワシントン大学のTina Graves-Lindsay氏は、このアセンブリ結果をリファレンス配列に反映させる仕事の最中であると発表しました。
Haploidサンプルの情報は、Diploidゲノムではアレル間の複雑な構造多型のためにアセンブルがあいまいになってしまうような箇所でも、正確に配列を決定することができます。
PacBioで読んだデータに加え、彼らは読みにくい箇所をカバーしているBACクローンライブラリを作り、PacBioシークエンサーで読んでいます。
Graves-Lindsay氏曰く、「ほとんどのクローンは実際には最終的にリファレンスの中に含まれます。ですのでもしその部位がリファレンスの中できたなくても、最後には読んだ配列で修正できるのです」
ロングリードは、すでにSRGAP2やIGHといった遺伝子の配列をはっきりさせています。
「私たちのゴールは、ゲノム全体のsingle-allelic representationを完成させることです」
これは、あいまいなゲノム構造配列が最小限なリファレンス配列を得ることで可能になるでしょう。


--------------と、ここまで来て翻訳が疲れたので、続きは抜粋、サマリー(笑)-------------

以下は私の文章ですので、本文を見たいひとは英文を参照!


ベストなツールを

いろいろありますがサイズセレクションには今のところBlue Pippinですね。
アセンブリにはHGAPとPB-Jelly
構造変異によってアセンブリエラーが起こった場所を検出するPB-Honey
Diploidアセンブリには、FALCONベータ版
この辺は今までと変わりません。

HGAPというのは最初のエラー補正でBLASRを使います。
これがとてつもなく計算資源を消費する。
National Biodefense Analysis and Countermeasures CenterのAdam Phillippy氏のチームは、これに変わるツールを開発しました。
BLASRを使ったHGAPは、ハエゲノムの場合、全体としてのアセンブリは成功するのですが、600,000 CPU Hoursという、HGAP全体の90%の時間を占有していました。
そこで彼らが試したのは、1990年代に開発された、AltaVista検索エンジンに使われているアルゴリズム。
その名もMHAP
計算時間は600,000 CPU Hoursから、1,000 CPU Hoursに短縮され、ハエゲノムサイズならアマゾンクラウドで実行してもわずか300ドル程度で可能だそうです。
バクテリア程度のゲノムならデスクトップPCでもできるとか!
これが本当ならすごいことですね。
でもしばらくは、アルゴリズムの改善、いろんな研究者による精度の検証が行われるでしょう。

MHAPについてはトレースしています。


それでは、また