2013年7月27日土曜日

共生菌ゲノムの論文、日韓ほぼ同時Published


先週の木曜日、品川の京都大学東京オフィスにて、「NGS現場の会・第三回研究会」のスポンサー企業ミーティングがあり、行ってきました。
現場の会の集まりだから、わざと、アロハシャツ着て行ったら案の定、司会の渡辺さんにいじられましたよ。
久しぶりに会ったひとも何人かいて、懇親会の後も飲みに行ったり。
みんなで現場の会を盛り上げていきましょう!



さて、今月、アジアから2本、PacBioユーザの論文がPublishされました!
1つは日本、1つは韓国です。
  • 日本:Shibata TF et al., Complete Genome Sequence of Burkholderia sp. Strain RPE64, Bacterial Symbiont of the Bean Bug Riptortus pedestris. Genome Announc. 1(4):e00441-13.
  • 韓国:Seung Chul Shin et al., Advantages of Single-Molecule Real-Time Sequencing in High-GC Content Genome. PLoS ONE 8(7): e68824 
ホソヘリカメムシの共生菌、Burkholderia sp. strain RPE64のゲノムサイズは6.96Mbで、3つの環状染色体と3つのプラズミドから成るそうです。 
HiSeq2000で何種類かのペアエンドライブラリを読み、PacBioで6kbライブラリを読み、Allpaths-LGでハイブリッドアセンブリしています。

 こちらは南極圏に住む地衣類の一種、Cladonia borealisの共生菌、Streptomyces sp. PAMC 26508のゲノムを読みました。
PacBioは8kbライブラリをロングリード用に、1.5kbライブラリをCCS用に読み、そのほか300bpペアエンドをIllumina HiSeq2000で、7kbペアエンドをGS-FLXで、読んでいます。
pacBioToCAを使ったエラーコレクションの後で、Celera Assemblyしています。
エラー補正に使うリードの種類で、どれだけアセンブリの成果が変わるか、見るとへえー、って感じです。 



ところで、「NGS現場の会・第三回研究会」で、ぜひ、注目してほしい企画があります!
その名も、「DeNovoの達人
 
同じサンプルを、PacBio、GS Junior、MiSeq、PGMで阪大微研さんで読んで頂きました。 これを、東大、慶応大、OISTのエキスパートがアセンブルに挑戦する!という企画。
このポスター好きです。作ったひとセンス良い!
 


2013年7月18日木曜日

PacBioの使い方・質問 募集!


ANAのボーイング747型機(通称ジャンボ機)は、来年3月で退役するそうです。ANAでは現在4機所有していて、どれも20年くらい働いているとのこと。 機長のアナウンスで知りました。
今回初めて、2階席に乗ったのですが、意外と広くて、窓側席には小物がしまえるスペースもあり、圧迫感が無いのにびっくりです。 でも、あと何回乗れるかなあ。

東海道山陽新幹線の500系車両、ってわかりますか? 青いカラーのとんがりノーズで、最初に時速300㎞の営業運転を始めた新幹線です。 壁と天井が300系や700系、N700系とは違って、半円形に近いんです。 ちょうどジャンボ機の2階席のように。
この500系も好きだったんですが、何年前でしょうか、のぞみ号から引退して「こだま」になってから乗らなくなりました。

出張の楽しみと言えば、こういう移動手段を選ぶときです。 あとは、ホテルを選ぶときと食べもの屋&飲み屋を選ぶとき。 もちろん仕事第一ですよ。


さて、NGS現場の会が9月の4日と5日にあります。 そこの企業セッションをチェック!
今年もPacBioのネタを喋りますが、単純なプレゼンではつまらん、と某広報委員長さまから言われましたので、少し志向を変えて、会場の方からの意見や質問も混ぜた感じのインターラクティブなものにしたいと考えています。

そこですでに現場の会メーリングリストを通じて、「PacBioをこんなふうに使えないのか?」とか「私はこんなアイデアがある!」とか「PacBioに関連してこんな噂を聞いたのだが本当か?」といった声を募集しました。
まだ受け付けていますので、是非、こちらまでメールでお送りください。
Addressは、ken_osaki「アット」digital-biology.co.jp
ちゃんとPacBio本社に確認してお答えします。

とは言っても質問自体も思いつかないよ、という方のために、今のPacBioシークエンサーのおさらいを少し。
スループットのグラフは以下の通りです。 横軸がリード長、縦軸がリード本数です。
リード長は一定ではない
平均4,600bpというのは、このような分布のリード長すべての平均です。 最長リードは20,000bpを超えますが、全体からするとごく一部です。
また、リードの長さとサブリードの長さは一致しません。

ライブラリの長さも一定ではない
10kbのライブラリを作りたくて、ゲノムDNAをシェアリングしたとしても、6kbの長さや3kbの長さのDNAも、最終的なライブラリに含まれるかもしれません。 これはライブラリ調整の過程で、AMPureのようなビーズや、BluePippinのような電圧を利用した、サイズセレクションをかけることである程度改善できますが、それでも完全に取り除くことはできないでしょう。
結果、10kbのライブラリサンプルの中には、6kbや3kbのサイズのライブラリも混在することになります。 ここで、「読まれやすさバイアス」の問題が出てきます。

短いライブラリほど読まれやすい
ZMWの穴には、普通、短いライブラリ程入りやすい、という物理的な性質があることが、わかっています。
Magnetic Beadsという磁気ビーズを利用して、長いライブラリを優先的に入りやすくする方法が現在デフォルトであります。
しかし、これでも実際やってみると、3kb位のライブラリならZMWの穴に入ってしまうんですね。
数百bp単位の短いライブラリを取り除くのには効果的なんでしょうが。

というわけで、10kbをターゲットとして作ったライブラリでも、3kbのライブラリがZMWの穴に入っていることは十分考えられることです。
ただ、その割合は読んでからでないと正確にはわかりません。

で、ここからがややこしいんですが、どの長さのライブラリから、どれくらいのリードが読まれたのか、この辺を知りたいと思いませんか? もしかしたら20kbのリードのほとんどは、3kbライブラリを何度も読んでいるだけかもしれない。 10kbライブラリは実は4kbくらいしか読まれていないかもしれない、などです。 
この辺は普段誰も説明しないし、PacBio本社もあまり深く調べていないようなのですが、私は気になります。


それはさておき、PacBioの新しい使い方のアイデア、噂話に対する質問、等ありましたらどんどんメールでお知らせください。