2017年9月26日火曜日

SMRT Link ‐ Sequelデータの解析ソフトウェア

PacBioの解析ソフトウェアといえばSMRT Analysisがあります。
これにラン設定のソフトウェア、データ管理のソフトウェアを合わせてパッケージにしたのがSMRT Linkです。
私も最初、Sequelが出たばかりの頃、このSMRT Linkが何を指すのか結構悩みました。
というかPacBio社の内部でも、SMRT Linkと言ったときにこれが装置操作のソフトを指したり解析ソフトを指したりで結構混乱していたのを覚えてます。
まあ、今でもはっきりしないところもあるんですけどね。

それはさておき、遅ればせながらようやく、SMRT Linkの紹介ビデオが公開されました。
こちらから見ることが出来ます。
どれも3分から5分程度で、きれいな英語なのでリスニングにもいいかも。

CCSやHGAP、LAAなど、使い方がメインですが何となくこんなソフトで解析するんだー、って実感できるかな。
欲を言えば、解析の中身、どういうアルゴリズムで計算するのか、というようなことも紹介してくれればいいのに。というところです。

明日の昼から、Structural Variantのウェビナーがあります。
ギリギリだけど今ならまだ間に合うか?
聞き逃したひとはお知らせください。
録画ビデオリンクをお知らせします。全体公開ならこのブログでも公開。

この1、2週間でいくつも凄いニュース(論文関係)が出ました。
キャッチアップするのが大変なくらい。
次のブログに書きますね。


2017年9月13日水曜日

ナノポアZMWって何?

Twitterやその他SNSで知った人もいるかと思いますが、こんな論文がNature Nanotechnologyから出ています↓
"Length-independent DNA packing into nanopore zero-mode waveguides for low-input DNA sequencing"
はて、ナノポア? ZMW? そしてオーサーの一人はPacBioのCSO(最高科学責任者)?
そうです。これはナノポアとPacBioのSMRT Sequencingの両方の技術を組み合わせた新しい技術です。
どんなものかというと、今のPacBioのSMRT CellにはZMWという微小ウェルがありますね。
PacBio・SMRTシークエンスの良いところはたくさんありますが、唯一の欠点はDNA量。
ナノグラム単位のDNA(ライブラリ)をアプライする必要があります。
これをピコグラム単位にすることは、裏プロトコルはあるにはあるのですが、結構難しい。

単純に言うと、ZMWのウェルの中にDNA‐ポリメラーゼの複合体をロードする効率が悪いからです。
長いライブラリ(例えば20kb)は短いライブラリ(例えば1kb)よりもウェルに入りにくい。これをローディングバイアスという。
マグネティックビーズを使って物理的にロードする方法はRSIIの時代に確立されましたが、それでも効率よくライブラリをウェルに入れるのは今でも難しいものです。

ONTのナノポアには、ポアにDNAを通すため、ガイドプロテインをいうものを使います。
この論文にあるナノポアZMW(NZMW)は、ZMWの底にナノポア(穴)を開け、電圧を使ってDNAをZMWにガイドするそうです。

これによるとかなり効率よくDNAライブラリをローディングできるらしい。
10ピコグラムのDNAでも1分以内にローディングできるとのこと。
20kbライブラリの場合、2秒の電圧パルスの結果、DNAをNZMWに吸着できた。
ローディングバイアスも見られず、1kb~48.5kbまでのライブラリをローディングできたとのこと。
Larkin et al., Fig 2

そこまで言うと、じゃあこれが次のPacBioのバージョンアップ技術になるの?
と思うでしょう?
残念ながらこれはまだPOP (proof of principle)の段階で、すぐに商品化されるわけではありません。と、CSOのJonas Korlachも言っています。
でも実現されれば面白い。装置の改良も必要かもしれませんが。
詳しくはNature Nanotechの論文

またはGenomewebのこの記事を参照ください。

有料記事なので詳細は書きませんでした。ご了承下さいまし・・・
個別にディスカッションしましょうね

2017年9月5日火曜日

Iso-Seq:Sequelでの実力はどれくらいか?



以前、こちらこちらのブログで、「言葉を覚える鳥」ゲノムのことを書きました。
ゲノムを読んだら次は遺伝子発現、ということで、Iso-Seq(完全長cDNAのシークエンス)をやった結果のデータが公式にアップされました。

PacBio公式ブログでの記事はこちら

ポスターはこちらからダウンロードできます。
出たばかりのSMRT Link v5 を使っていたようですね。

データ出力のところを注目してみましょう。
SMRT Cellは4個使っています。
セルごとにバーコードで2種の鳥のサンプルを読んでいます。
Cellあたりの出力塩基数は6.1Gbから7.7Gb、ポリメラーゼリード長のN50はなんと32kb~38kb!
どうです? いや、長さが全てだとは言いません。でもPacBioでもこんなに長いリードが出るんです。
冗談はさておき、サブリードのN50 も5kb台です。十分転写産物をカバーできていると言えるでしょう。

ポスターを見ると、High QualityのIsoformは、Zebra Finchもハチドリも、それぞれおよそ17,000本を得ています。
これは偶然でしょうか? (いいえ)

2種類のサンプル(AとB)を4セルで読むとき、Aを2セル、Bを2セル、というシークエンス方法もあります。
今回はわざわざバーコードを付けて、ABを後から区別できるようにし、2つを混ぜてから4セルで読んでいます。
こうすることで1セルに2種類のサンプルが均等に読まれることになります。
結果、異なるセル間の出力のばらつきがたとえあったとしても、A、Bそれぞれの4セル分のリード数は同じようになると期待できますよね。
これもSequelになって出力が増えたおかげかな?

さて、この解析のところでIso-Seq2もしくはToFU2というのが出てきますが、これはまだ開発版でサポート外です。
今までのIso-Seqとどう違うかというと、主に解析パフォーマンスを上げるためのバージョンアップになります。
SGEを使うのがオプションになったり、クラスターを作るところでBLASRとDALIGNERのどちらかを選べたりします。
Sequelになってデータ量が増えた分、Iso-Seqの解析時間がかかり過ぎていた問題点を、これで改善する目的で作られました。
詳しくはこちらのPDFをご覧あれ
ToFU2: Design Overview より