2013年5月15日水曜日

HGApの論文のデータについて

 
 
Nature Method からHGApの論文が出ました。 (http://www.ncbi.nlm.nih.gov/pubmed/23644548)
PacBioの社運を賭けて?では無いでしょうが、昨年から相当力を入れて開発していましたよ。
そこで、この論文の話・・・と行きたいところですが、今日はそうではなく、気になったことがあるのでお知らせします。 元データの話です。
 
この論文の配列データはもちろん公共DBから落とせるのですが、その中身がちと違うのではないか?
最初に気づいたのは私ではなくCLC-Bio Japanの宮本さんで、彼女が教えてくれたところによると、EBIで落とせるfastqは、リード数が極端に少ないそうです。
 
本論文中に出てくる、大腸菌の1セル分のデータ、例えばSRR811719
http://www.ebi.ac.uk/ena/data/view/SRR811719
は、 EBIのサイトでは、リード数 81,741 と書いてあるんですが、落としてみると 297本しかない! (宮本さんから教えて頂いたのでGenomics Work Bench で表示します! GWBが297本にフィルタリングしたわけでは無いので念のため)

 
 

というわけで、EBIにアップされているこのPacの配列は使えませんね。どこか間違っているのかな? 

そうなってくると気になるのは別のデータベース。
NCBIのSRAではどうか? 
同じデータSRR811719を見てみます。(http://www.ncbi.nlm.nih.gov/sra/?term=SRR811719

 こちらは.sra フォーマットで出来ているので、fastqフォーマットに変換するには、sratoolkitというツールをNCBIから落としてインストールし、
fastq-dump SRR811719.sra -A SRR811719
という感じでfastqフォーマットに変換します。
すると、
 
おおーっ! 81,738本になった! 

これでも実はまだ使えません。
なぜかというと、この本数は、ベースコールデータとして使えないリードを含む、全てのリードの本数だからです。
この論文のデータが出された時は、1回に読めるZMWの数は75,000です。
なのに81,738本というのは、明らかに、読まれるウェルの数を超えています。 
この差分の正体は、主に、データ補正用のウェル、です。
本当にデータが出てくる予定のウェルは75,153個です。

しかし、そのうち信頼できるデータが出てくるウェルは大体2割から3割。
なので、この8万本のリードから、本当にデータとして使えるリードは、15,000~22,000本なのです。

さらに、上記のグラフをよく見ると、15k以上のリードもある。
つまり(ライブラリー)‐(アダプター)‐(ライブラリー)という配列を含んでいるので、アダプター配列は邪魔。
本当はライブラリーだけの配列=サブリードだけの配列が良いのですが・・・。

我がDDBJも、sraフォーマットだったので、SRAのと同じではないか、と勝手に判断しました。 すみません。

さ ・ ら ・ に !

論文を見ると、リード長500、Read Quality 80 で最初にフィルタリングして、そのサブリードを、アセンブリ解析に用いています。
こうなってくると、PacBioが出しているSMRT Analysis というフリーの二次解析ソフトが必要になってきます。 (そんなん無くても自力でツールを作れる方もいるでしょうが)
ちょっと、Pacのデータってどんなもんかなー、的に見てみたいひとには敷居が高く感じてしまいますね。

同じデータ、しかしPacBioRS出力の本当の生データ、は誰でもPacのサイトからダウンロードできます。 https://github.com/PacificBiosciences/DevNet/wiki/Datasets
"E. coli, M. ruber and P. heparinus with assemblies using HGAP beta implementation"
フォーマットはbas.h5 ファイルですのでちょっと普通のNGSソフトでは扱いにくいですね。

そこで、この論文の生データを、SMRT Analysisを使って論文と同じフィルタリング条件でフィルターしたのち、fastqフォーマットに変換したので、欲しいひとには差し上げようかと思います。
欲しいひといるかな?

大腸菌の例で言うと、8セルあって、フィルタリング後の塩基数が464,366,080bp
論文より若干多いですが、そこはRQフィルタリング時の誤差でしょうか。
でもリード長の分布は論文のものに似ているので、良いでしょう。
 
ちなみに、本当に欲しいサブリードの分布はこんな感じでした。
HGApも流しているので、その結果が楽しみです。

2013年5月10日金曜日

5月24日 PacBioの半日セミナー


今日は、PacBioの半日セミナーのお知らせです。
東京で行われますので興味のある方は是非ご参加下さい!

日時:    2013年5月24日(金)9:30~12:30
場所:    大手町野村ビル23階、トミーデジタルバイオロジー株式会社オフィス
参加費:無料!
定員:約20名 (席が少ないのでお早めに!)
主催:トミーデジタルバイオロジー株式会社

----------------------------------プログラム-----------------------------------
9:00 ~                  受付開始
9:30 ~ 10:00          (トミーデジタルバイオロジー)
「PacBio RSⅡ 最新情報と製品ロードマップの紹介」

10:00 ~ 10:30        野田博明 様(農業生物資源研究所)
「反復配列に富んだ昆虫共生細菌のゲノム解読」

10:30 ~ 11:00        寺林靖宣 様(沖縄科学技術振興センター)
「沖縄におけるPacBio RSのde novo解析への活用」

11:00 ~ 11:20         兼崎友 様、吉川 博文 様(東京農業大学)
「微生物ゲノム解析におけるPacBioの使用例」

11:20 ~ 11:50         柴田朋子 様(基礎生物学研究所)
「PacBio RS による非モデル生物のde novoゲノム解析」

11:50 ~ 13:00        ランチ&交流会(無料です!)*終了後解散
--------------------------------------------------------------------------------
☆参加方法

御名前、御所属、電話番号を記載の上、info_apアトマァクdigital-biology.co.jp
まで、メールでお願いします。 
件名は「5月24日PacBioセミナー」とお書きください。
申し込み期限は、5月21日です。
こちらで申し込みを確認しましたら、折り返し確認のメールをお送りします。
もし残念ながら定員に達した場合は、その旨お知らせ致します。

----------------------------------------------------------------------------------
会場
東京都千代田区大手町2-1-1 大手町野村ビル23階 フロアの一番奥です!
会場までのアクセス
●地下鉄でお越しの場合
≪東京メトロ≫    東西線・丸ノ内線・千代田線・半蔵門線
≪都営地下鉄≫    三田線
地下鉄大手町駅東西線 [B2a] 出口直結 (← 一番近いし、雨にも濡れない!)
●JR線でお越しの場合
JR東京駅丸の内北口OAZOビルを通って、目の前の時計がある25階くらいのビルです!


お問い合わせ
上記メールアドレスか、Tel:03-3242-7789 まで

2013年5月8日水曜日

ニュースレター 2013年春 より


PacBioのメール通信に登録していると、四半期に一回以上、ニュースレターが届きます!
今日はそのお知らせ。

ニュースレターを購読していない方は今回だけ、こちらからどうぞ(http://www.pacb.com/newsletter/2013/spring/

その中でも、おそらく皆さんが注目するのがここ(矢印)でしょうか?
今後のPacのロードマップです。

今までプレゼンなどでは言ってきた内容ですが、このたび公になったということは、リリースに向けていよいよ準備ができてきた、ということです!

"Also in the works: we are developing a protective scaffold between the fluorescent dye and the nucleotide that minimizes photodamaging effects the dye may exert on the sequencing polymerase. Such photodamage can reduce read lengths, and our results in R&D from the new, photo-protected nucleotides are very promising. We believe this advance will allow average read lengths of 7,000 to 9,000 bases — roughly another doubling of the read lengths compared to our current XL chemistry."

レーザーによってヌクレオチドに結合している蛍光が光る度に、すぐ近くのポリメラーゼにエネルギーが渡り、ポリメラーゼ活性が劣化していくのが今までの問題でした。 そこでR&Dでは昨年から、蛍光分子とヌクレオチドの間に新たに分子を挟ませる研究をしていました。 傘のように、蛍光からポリメラーゼを守るのです。
そうすることで、平均リード長が7000~9000bpほどに伸びることが可能になる、というのです!

平均9000bp !?
すごい! これはすごい!
私も昨年の夏、この話を聞いた時には正直、半分、どうかなあ~って思っていました。
でも、昨年から今年にかけて、だんだん現実味をおびてくるにつれて、ワクワクの気持ちに代わりました。

サンプルプレップ時の調整や改良と合わせると、1セルあたりの出力が、今の100Mb(または200Mb)から、500Mb~1Gbになってくるというのです。



話は変わりますが、5月18日から3日間、アメリカのコロラド州デンバーにて、American Society of Microbiology があります。 PacBioも出展します。
私は行きませんので、PacBioの仲間に聞いて、色々情報をアップデートしようと思います。
確か全てのプレゼンが公開されるはずです。

2013年5月4日土曜日

期待しているアセンブリ関連の論文


ゴールデンウィーク中日、皆さんはどのようにお過ごしでしょうか?
私は今年も昨年も、5月3日にアメリカ本社とウェブ会議しました。
もちろん家から参加ですけど。
どうせ長距離旅の予定は無いのでいいんですが・・・。
 

さて、昨年(2012年)、PublishされたPacBioToCAは、ここでも前に書きました。
経験上、大きなゲノムでは途中で止まってしまったりと、いろいろとチャレンジが多いツールでもあるんですが、今のところ、Pacと合わせてイルミナ等のショートリードをやっているひとたちは、とりあえず最初に試してみるエラー補正ストラテジーだと思います。

このツールの作者は、Sergey Koren氏らのグループです。 彼らがまた、別の論文をSubmitしましたので、ご紹介します。

こちらから取得できます( http://arxiv.org/abs/1304.3752

PacBioToCAを使ったエラー補正から、データを変えていろいろ結果を比較し、私は結構面白い論文だなと思いました。
ここで出てくるC1、C2、XLという言葉について、聞き慣れないひともいると思うので説明します。
これはポリメラーゼのバージョンで、Pacではケミストリーと呼んでいます。 C1のCはChemistryのC。
XLというのはエキストラロングのこと。
C1は一昨年のケミストリーで、平均リード長は2000bp未満。昨年1月リリースのC2で3000bp、昨年秋リリースのXLで4000 bpと、どんどん伸びています。
もちろん今年も新ポリメラーゼがリリースされますよ。お楽しみに。

この論文で、Pacは結構コスパが良い、と最後の方で言っています。
私は他のシークエンサーがどれくらいランニングコストがかかるのかわかりませんが、Pacで出てくるデータの価値と価格を比較した論文はそう無いので(他に一報あるのを知っていますが)、チェックしても面白いと思います。 ただあくまでアメリカでの価格ですよ (^v^)


エラー補正と言えば、HGAPという方法も昨年末に公開されました。
こちらはロングライブラリーのデータだけを使って、短めのリードを補正に使う方法です。
以前、(http://pacbiobrothers.blogspot.jp/2013/03/blog-post.html)こちらに書きました。

実際バクテリアサイズのゲノムアセンブリであれば、HGAPでほぼ完結しますよ。 
試したうち9割くらいのひとは、非常に驚いて満足されています!
残り1割、ですか? 本当は試した全てのひとが満足している、と言いたいところですが、実際に存在するリピートが長かったり、ランしたセルが足りなかったりと、そういう場合もありますからね。

ちなみにSMRT Analysisというフリーの二次解析ソフトでは、標準装備されています。

その、HGAPですが、間もなくPublishされるという情報が入ってきました!
これも楽しみです。 技術的には大型ゲノムにも応用可能な方法ですので、各方面で使用されることを大いに期待しています。