2015年1月22日木曜日

2015年のロードマップ等々


東京農大で開催された、2014年度拠点セミナー「NGSデータを用いた非モデル生物のゲノム・トランスクリプトーム解析」に参加してきました。
3人の演者の方のうち、2人はPacBioの大ファン!
昨年の「PacBio現場の会」でもお話頂いた、マスター・オブ・デノボの笠原先生
アズキで世界の食糧難に挑戦する、セクシー研究者の内藤先生
お二人とも「PacBioは素晴らしい!」「I社のシークエンサーで読んだ後も、もう一度Pacで読み直そうと思っている」
などなど
会場にいたPacBioの回し者である私は思わず、謝礼を渡したい気持ちになってしまいました。

ありがとうの気持ちはプライスレス

さて、PacBioの2015年の、公式ロードマップが出されました。
全文はここから

スループットについては、
SMRT Cellあたり4Gb、平均リード長15-20kb、ポアソン分布以上のロード率
を達成させます!

we expect to deliver another ~4-fold increase in throughput, reaching >4 Gb of data per SMRT Cell run, with average read lengths increasing to 15-20 kb. We plan to accomplish this through a combination of improvements in the sequencing chemistry, protocol workflows, and software. An example is active loading to increase the efficiency of loading one polymerase per ZMW at frequencies greater than the Poisson limit.

ポアソン分布以上のロード率というのは、これまでは15万のZMWから30%~40%程度のデータしか出てきませんでしたが、これを60%、それ以上に上げるというものです。
濃度を上げてロード率を高めるのではなく、濃度はそのままにリード数を高めるというもの。
どうやるの?
気になりますよね?
これはまだ「Confidential」が取れていないはずなので、もう少々お待ち下さい。


2月下旬の、AGBT学会に行くかた、PacBioはゴールドスポンサーですので、ワークショップを是非のぞいてきてください。 私は行かないんで。 
後で聞かせてください!

そのワークショップで、PacBioだけでヒトゲノムを読んだ、2つのプロジェクトの成果が発表されます!
これまでに無い、素晴らしい結果。
PacBioのデータだけで、しかもデノボだと聞いています。リファレンスガイドのアセンブリではない。
2つのうちひとつは、韓国から。
韓国では、韓国人のリファレンスゲノムを作ろうというプロジェクトが一昨年からありました。
そんな中、どうしてもPacBioが必要だ、ということになったわけです。
彼らとは昨年のASHGで偶然会って、意気込みがすごかったのを覚えています。
どんな結果を発表するのか、気になりますね。

もうひとつはアメリカから。
誰でも知っている、ある有名な科学者の全ゲノムを、PacBioで読んだそうです。
そしてこれまでに得たことが無いくらい長いContig N50を達成したそうです。
驚かすために、誰のゲノムかは秘密。
でも何となく、予想はつきますよねえ。
ビッグ・サイエンティストといえば・・・

1. ジェームズ・ワトソン?
2. グレイグ・ベンター?

DNAが分解していなければ、故人というのもありえる
3. アルバート・アインシュタイン?

誰でしょうね。でもこれがNCBIに載るということは・・・


2015年1月4日日曜日

ゲノムアセンブリの簡単チェックツール - QUAST

あけましておめでとうございます。
本年もよろしくお願いします。

Facebookを見ていると、友達の多くは、雪の中の正月写真をアップしていました。
東京は快晴、いい天気。空気は冷たく澄んでいる。
シンガポールの友達は、屋外で、シャツ一枚にビール片手の写真をアップしてました。
後ろでは、マリーナベイサンズの屋上から出ているレーザー光線がきれい!


さて2015年の一発目は、ウェブで見つけた便利ツールです。

QUAST という、アセンブリの結果を表示してくれるツールです。
アセンブルそのものをするわけではありません。
アセンブル結果を、FASTAファイルを入れるだけで、見やすくまとめてくれる、そんなツールです。

使い方として、例えば、
いろんなアセンブラーを試して作ったContigを持っている場合
またはパラメータを変えていろいろアセンブリを試した場合
それらContigの統計値をリストしたいとき。

ここではウェブ版の結果を紹介しますが、ダウンロードしてローカルで動かすこともできるそうです。
マニュアルも充実しています。

デモデータもここからダウンロードできるので、早速試してみました。
データはE.coliのK-12 substr. MG1655だそうです。
残念ながらPacBioのデータではない(Illuminaデータのアセンブリ)ので、私たちが持っているPacBioデータのアセンブリ(パラメータをちょっと変えたもの2つ)を加えてアップロードしてみました。

インポートファイルは、FASTAで、アセンブリごとに分かれている必要があります。
Add Filesからファイルを指定します
リファレンスが既にわかっていれば、そのファイルとアノテーションファイルを取り込むことで、遺伝子レベルでの配列チェックも可。まあ、どんな結果が出てくるか。
とりあえず、デモデータのリファレンス配列と、アノテーションGFFファイルをダウンロードして、
Another genomeを選んでアップロード。
そしてEvaluateボタンを押!
もちろん、デノボシークエンスの場合は、ゲノムなんて選ばないでそのまま押!

結果はこちら

このようにテーブルでアセンブル結果が表示されます。
使われている用語の定義は、そこにカーソルを当てると、説明がでてきます。

ABySSとかCLCとか書いてあるのは、デモデータ(イルミナデータのアセンブリ)結果です。
私が加えたPacBioは、1セルで読んでHGAP2でアセンブリした結果です。
Extended reportというところをクリックすると、もっとたくさんの集計結果が表示されます。

テーブルのすぐ下には、グラフィカルな表示が


こちらはContigの累積プロット 
Y軸が累積塩基数
X軸がContig数

点線は、Referenceをアップロードしたときだけ、表示されます。これがReference配列のサイズ。
ちなみに上図の左上に描いた赤矢印は、PacBioのデータです!
Contig数は2つ(1つはミスアセンブリ)で、Referenceをカバーしていますね。

GC含量を見てみましょう

・・・まあ、こんな感じ。
E.Coliなので


と、いうツールですが、ショートリードやPacBioとのハイブリッドでアセンブリした場合の、結果をザッと見てみたい場合に使えるのではないでしょうか?

ドライの方以外でも、例えば、誰かにパラメータ変えてアセンブリしてもらった結果を評価したいな、という場合使えるでしょうね。

そういえばサイズに制限はあるのでしょうか?
特にそのような記述は見当たらなかったですが。見落としているかな?