2017年4月28日金曜日

SMRT Link 4.0公開

PacBioの解析ソフトウェアといえばSMRT Analysisですが、これは基本無料のソフトウェアです。
「基本」というのは、ダウンロードして使うのはご自由にどうぞ、という意味です。
ただ、使い方やサポートとなると、PacBioの装置を持っているかたはもちろん優先して行いますが、そうでない方は後で・・・ということになってしまいますことはご理解ください。
その代わり、GitHubや、ダウンロード資料、無料の解析ワークショップなどは、定期的にアップデートしていますのでそちらをご覧ください。

と、言い訳っぽいことを書きましたが、正直、無料のソフトなので。

さて、Sequel用にはSMRT Linkというパッケージソフトが用意されています。
その中にはもちろん、Sequelデータの解析ソフト、SMRT Analysisが含まれています。
Sequel用のSMRT Linkは2017年4月現在、バージョン4.0で、ここからダウンロードできるようになりました。

チュートリアルなどのビデオやインストール資料も、少しずつですが充実してきています。
と、いうことですが、まだSMRT Linkはインストールにハードルが高いかもしれません。
サーバのスペックはかなりのものを要求します。
推奨は、ジョブエンジンで動くクラスターサーバです。
例えば、ヘッドノードは64Gbメモリ、32コアCPU、計算ノードは256Gbメモリ、1Tbのローカルディスク容量、これが6ノードで合計96CPU コア
この例は、大型ゲノムをアセンブリして、1週間くらい待てるお客さん向けです。

でも、
Falconも入っているし、この環境を作ってからなら、Falcon Unzipもうまく動くようになったという報告もあるので、うまく動かないで困っているひとは先にSMRT Link 4.0をいれてみることをお勧めします。

まずは資料やらチュートリアルビデオやらを見てくださいね!





2017年4月27日木曜日

沖縄からのレビュー論文

日本にPacBio RSを初めてインストールした、本当に最初の最初のお客様の中に、沖縄綜合科学研究所、があります。
こちら、沖縄県うるま市の沖縄バイオ産業振興センター内にあり、もちろん何度も行ったことがあります。
これまでにもPacBio現場の会や、PacBioアジアユーザーミーティングでのご発表など、いろいろとご協力頂きました。

さて、3月31日にPublishされていて、ここでも紹介しようとしていてうっかり忘れていたレビュー論文があります。お客さんが書いた論文の紹介なのに「忘れていた」とはなんとも申しわけない。
でもファーストオーサーの中野さんは、優しいひとなので許してくれるでしょう。


沖縄綜研さんでは、これまでに本当にたくさんのサンプルを、RS/RSIIを読んできました。
PacBioの一分子シークエンサーが、ゲノム解析や構造解析、メチレーション解析、SNPフェージング解析にいかに優れているか、をよーくご存知です。
私が言うより、実際のお客さんが言うほうが、説得力ありますよね。
ちなみにロングリードの記録として、92.7kbのリード長を2016年11月に出しているそうです!(もうちょっとで100kbでしたね)

このHuman Cell レビュー論文の中では、さまざまな種が登場しますが、その中からほんの少し紹介します。論文は無料みたいです。
PacBioの、GCバイアスの無いロングリードだからこそ読めた例の数々です

Mycobacterium tuberculosis (結核菌)
4.4MbでGCが65.6%のGCリッチゲノム。ゲノム中にはGCが80%に達する2,000bp以上の配列部位が存在し、1,000bp以上のまったく同じ配列ペアが117か所あるとのこと

MDR Acinetobacter baumannii (多剤耐性菌アシネトバクター)
4Mbの染色体と189kbのプラズミドを持つ。どちらもGCが39%程度の低GCゲノム。
多剤耐性の遺伝子の位置を同定

Carbapenem-resistant Pseudomonas aeruginosa  (カルバペネム抗生物質耐性緑膿菌)
6.85Mb、GCが66%のゲノム
ゲノムには、10,000bp以上(最長27,239bp)の同じ配列ペアが6か所あり、これらはプロファージとのこと

Helicobacter pylori (ピロリ菌)
沖縄は、内地と比べて胃がんの割合がとても低い。これは胃がんの原因として近年言われているピロリ菌の種類が違うからではないか?という話。
ピロリ菌の毒性とcagA, vacA遺伝子のジェノタイプをプロファイリングし、さらにはメチレーションとの関係性も明らかにした例

ほかにも、沖縄由来のバクテリアや、インフルエンザウイルスのゲノムを解析した例、ヒトのCM-SJS(スティーブンス・ジョンソンシンドローム)/TEM(中毒性表皮壊死症)関連IKZF1遺伝子のターゲットアンプリコンシークエンスをして新規にSNPフェージングを発見した例など、これまでの成果は相当な数に上ります。



と、お客さんをよいしょしたところで、今日はこれくらいに。

2017年4月19日水曜日

Dovetail レタスゲノム論文

すみません、最近ブログ更新をさぼっていました。
私事ですが、年度末に7年ぶりの引っ越しをしまして、そのうえ国内・海外の出張が重なり、ブログのことが後回しになっていました。

引っ越しのタイミングで買うものといえば掃除機。
前の家ではルンバを買ったのですが、今度はダイソンのハンディ掃除機。
これ、凄く良いですね。毎日使ってます。

さて、3月末の育種学会は名古屋でした。
愛知県はキャベツの生産量日本一だそうです。意外ですよね。
キャベツと似たような野菜にレタスがあります。では、
レタスの生産量日本一は?
正解は長野県です。これは、やっぱりね、という感じ?

レタスは学名 Lactuca sativa というそうですが、染色体の数は9対、18本。
ゲノムサイズは約2.5Gb
リピートが多く、植物らしい? ゲノム構造だそうで。

今日紹介する論文は、まだPacBioは出てきませんが、DovetailのChicagoメソッドを使ってレタスのゲノム解読を行った例。これです


このレタスゲノムの場合、ショートリードだけで行ったドラフトアセンブリのN50は、
コンティグレベルで36kb
スキャフォルドレベルで476kbでした。

これが、HiSeq 2レーン分のシカゴライブラリデータを加えただけで、スキャフォルドN50 が1.8Mbになったというのだから驚き!

”The Dovetail technology greatly increased the contiguity of the assembly, assimilated additional scaffolds into chromosomal pseudomolecules, identified chimeric scaffolds that had been missed by genetic analysis, and oriented and ordered scaffolds through complex regions. ”

さらに、この論文には間に合わなかったみたいですが、彼らは追加でもっと凄いデータを出しています。
論文に使われたシカゴライブラリは、およそ150kbのゲノムDNA分子から作られたそうです。
そのあとDovetailでは、400kbシカゴライブラリを作りました(ultra high molecular weight Chicago)。
でそのデータを加えたらN50 は6.51kbに!
さらにさらに、Dovetail Hi-Cライブラリ(細胞内でChicagoライブラリのようなものを作る)も作って追加したところ、9本の仮想染色体を再現できるところまでできたそうです!!

もちろん9本の仮想染色体は、Nを含むスキャフォルドです。
彼は今、PacBioのデータを取得し、ギャップフィリングに挑戦中だそうです。
またさらにHi-Cを追加して、テロメアからテロメアまで、の完全染色体配列の再現を目指しているらしいですよ。

さて、そんなDr. Michelmoreのウェビナーが来月31日にあります。
Dovetail の技術に興味のある方、ギガベースのゲノムアセンブリに苦労されている方、PAG Asiaに行けないけれども情報仕入れたいかた、ぜひ参加ください。
こちらから登録

と、誘っておきながら、時間が悪いんですよね。なので録画が予定されています。
登録者にはリンクが行くはず。
もし参加し忘れた、けど録画が見たい、という方は私まで直接お知らせください。
NGS現場の会でも、Dovetailのセッションを企画しましたのでよろしくです!