2016年10月19日水曜日

アメリカ人類遺伝学会 ASHG GIBとリファレンスゲノムの話

ASHGに来ています。今日は初日。
午後1時からの Genome In a Bottle とリファレンスゲノムのセミナーを聞きました。
Genome In a Bottle(GIB)といえば、前にも書いた気がしますが、ヒトゲノムのリファレンスマテリアル(リファレンスゲノムとは違う)をいくつか決めて、そのゲノムを様々な技術で読んで、変異解析をする、そのスタンダードを決めようというプロジェクト。
今はNA12878、Ashkenazim Trio、Asian などが、リファレンスマテリアル(RM)として解析されています。

RMは誰でも買うことができます。
新しい解析パイプラインを開発するひとは、RMを基準(スタンダード)に開発すれば、世界的な信頼性が得られるということ。
これから出てくるであろう新しい技術もそうですね。こういうスタンダードは必要です。

GIBでは様々な技術を試して、そのデータを公開しています。
Justin Zook氏のプレゼンより

この中でも特に、PacBioのデータは、ここ数年でデノボアセンブリの「スタンダード」になりました。
で、PacBioと親和性の高い新参者テクノロジーとして、Dovetailがあります。
同じくZook氏のプレゼンより
AJ Son のアセンブリでいうと、PacBioとDovetailで、Scaffold N50 が 12.9 Mb - 20.6 Mb になっている。
もちろんこれらはドラフトアセンブリなので、クオリティはどうかわかりません。
でも、後でJustinさんと話したのですが、10XもDovetailも、理論的にはPacBioアセンブリを補正(つなぐという意味で)するのにとても向いています。
ただ、10XとDovetail、あとBioNano を、まだ比較はしていないそうです。

Justinさんは、昨年来日して、沖縄と東京で講演しました。
「そのときに比べて、ずいぶん新しい結果が出てきましたねえ」と言ったら、「もう新しい技術が出すぎて大変だよ。やることたくさんある」と笑顔で返されました。

さて、彼のプレゼンは、Slide ShareにUPされていますので、参照したいかたはどうぞ。
ほかの演者のプレゼンもアップされるそうです。

アセンブリの話で、FalconのようにDiploid のアセンブリができるようになったけれど、それを表現するファイルフォーマットが必要、というのがありました。確かに!
Fastaではうまく表現できないですよね。
あとViewerも。誰が世界標準を作るのか?

GRCh38 のゲノムには、Alternative Loci配列がたくさんあるのは知られていますが、これが結構頻繁にバージョンアップされているのは、事実です。
じゃあ、今のバージョンでマッピング→変異解析 してデータ集めているひとは、バージョンが変わったら、やり直す方が良いんですかね?
主にショートリードでヒトゲノムをがんがん読んでいるひとには、結構クリティカルな問題だと思いますが、皆さんどうしているんでしょう?

なんか、パーソナルゲノムがどんどん読まれている時代だと、GRCh38にマップして解析するより、人種が近いゲノムを使って解析し直したほうが良い気がします。
そんなふうに思いながら、セッションを聞いていました。

セッション自体はそんなに大きな部屋ではなかったですが、第一線でリファレンスゲノム作っている研究者が集まっている感じでしたね。PacBio、BioNano、10Xのひとももちろんいましたし。
だんだん知り合いが増えてきた感じ。

Diploid のアセンブリ、Falconといえば、先日改良版の Falcon-Unzipが Nature Method の論文になりましたので、こちらも参照くださいね。


2016年10月17日月曜日

Genome 10K、Bird 10Kプロジェクトに、PacBioシークエンサーが本格採用!


Genome 10Kプロジェクト、って知っていますか?
UC サンタクルーズの David Haussler博士、サンクトペテルブルグ州立大学のStephen J. O'Brien 博士、UC サンディエゴ・サンディエゴ動物園の Oliver A. Ryder博士らが中心となって、2009年に設立した、国際ゲノムコンソーシアムです。
脊椎動物を中心に、10,000種類のゲノムをどんどん読んで、がんがん決めていこう!

その後、2015年に、現ロックフェラー大のErich Jarvis博士、BGIの Guojie Zhang 博士、コペンハーゲン大の Thomas Gilbert 博士らが、鳥類のゲノムシークエンスプロジェクト(B10K)を立ち上げ、2020年までに10,000ゲノム以上を読む計画です

今、自然動物・植物のゲノムを決めていこうというプロジェクトが動いています。
私はまだ参加したことが無いのですが、PAG (San Diegoの方)ではそんな話題がたくさん聞けるんでしょうね。恐らく。

この2つの大きなゲノムプロジェクトにはこれまでも、PacBio RSII が使われてきました。
例えば、ハチドリのゲノムシークエンスの場合、ショートリードで解析したときに124,000 本のContigだったのが、PacBioを入れることで1,000本までに減らすことができた、とのこと。(PacBioのブログより)
Jarvis博士らは、既にSequelを2台注文、さらに3台購入の予定もあるらしく、この次世代マシンで数千種のゲノムを読み進めていくとのこと。

いやはや、Sequelの発表からもう1年。
Sequelが、このような大きな国際プロジェクトの現場で使われ始めると聞いて、正直嬉しいです。

今週はアメリカ人類遺伝学会
新しい発表がありますよ。お楽しみに!





2016年10月13日木曜日

アメリカ人類遺伝学会 2016 の前振り

今日は手抜きです。
一昨日、NGS現場の会のメーリングリストに流した文章を再利用しますです。

-----------------------------ここから手抜き---------------------------
NGS現場の会の皆様

こんにちは、トミーデジタルの大崎です。
来週は、アメリカ人類遺伝学会(@バンクーバー)です。
というわけで今回は、ロングリード界の巨人・PacBio社と、ショートリード解析の革命児・Edicogenome社が、本学会中に企画しているイベントのご紹介です。
アメリカ行かないよ、という方も、PacBioのセミナーの方はストリーミング&ビデオレコーディングがあります

Edicogenome社 モーニングパネルディスカッション】
Insights From the Front Lines of Precision Medicine

Baylor College of Medicineや、Johns Hopkins UniversityHudsonAlpha Instituteなど、米国Precision Medicineをリードする研究所では、既にEdicogenome社の超高速NGS解析サーバ・Dragenが活躍しています。
大量NGS解析の世界標準になりつつある、Dragenサーバ
各研究所の第一人者が集まり、クリニカルNGS解析の現場と、必要とされる解析技術について、ディスカッションを行います。

日時:1019日(水) 7:15 AM - 8:45 AM
場所:East Ballroom C, East Building - Vancouver Convention Center
事前登録はこちらから

はい、朝早いです。バンクーバーの朝は寒いでしょうねえ。
でも暖かい飲み物、食べ物が用意されているはず、なのでご安心を。
--------------------------------------------------------------------------------------------------------------

PacBio社 ワークショップセミナー】
Discovering and Targeting Causative Variation Underlying Human Genetic Disease Using SMRT Sequencing
Precision Medicineをテーマに、PacBioSMRTシークエンスが切り開く新たなクリニカルシークエンスの未来を、2人の研究者が紹介します。
そのほかにも、PacBio社からのアップデート発表がある予定ですので、是非お越し下さい。
毎年、満員御礼、立ち見が出ます。事前登録必須です!

日時:1020日(木) 1:00 PM - 2:30 PM
場所:Pan Pacific Vancouver Hotel, Crystal Pavilion (Vancouver Convention Centerの隣り)
事前登録はこちらから

北米的な(サンドイッチ的な)ランチが提供される予定です。

そのほか、PacBioテクノロジーが関わるサイエンスの発表はこちらです
20日のワークショップセミナーに参加するひとは、19日のポスターチェック!で予習OK
---------------------------------------------------------------------------------------------------------------

ブースにも是非お越し下さいね。 
(PacBio #718Edicogenome #817)
10/19(水): 10:00 AM - 4:00 PM
10/20(木): 10:00 AM - 4:00 PM
10/21(金): 10:00 AM - 4:15 PM

また、Edicogenome社、PacBio社の担当者と、個別に話がしたい!という方は、ご遠慮なくお知らせ下さい。
わりと自由にミーティングを設定できます。
「一緒にブースに行きたい!」でも結構です。

では

------------------------ここまで手抜き-------------------------

さてさて、私は上記2つの会社のイベントには当然出るのですが、もちろん裏イベントにも参加します。
このブログで紹介できることは、できるだけアップするつもりですので、また来週以降をお楽しみに!

2016年10月7日金曜日

PacBioでヒトゲノムアセンブリ 韓国人ゲノムがNatureに

昨年のNGS現場の会でも話した、PacBioでヒトゲノムを読んでアセンブリした件
ここのブログでも度々登場した、韓国でのリファレンスゲノムプロジェクトが、ついにNatureにPublishされました!

このことはGenome Webにも記事になっています。では引用しつつ説明しますね

このプロジェクトはソウル大の教授でもあるマクロジェンの会長、Jeong-Sun Seo氏を筆頭に、数年前から行われてきました。
使われたプラットフォームは、PacBio RSII、BioNano Irys、Illumina HiSeq、BAC clone sequencing、そして10X Genomics GemCode
つまり、ロングリード、フィジカルマッピング、ショートリード、サンガー、リンクシークエンスなどなどを総動員して行なわれた、一大プロジェクト。

そもそもの目的は、今のリファレンスゲノムはヨーロッパ人由来のものであり、アジア人には適していないのでは無いか? ということで、アジア人のリファレンスゲノムを作ろう!ということでした。
アジア人といっても広いので、マクロジェンとしては、先ずは韓国人だろうと。
AK1ゲノムと呼ばれています。

余談ですが我が国では、東北メディカルメガバンク機構が、PacBio RSIIのロングリードを使って日本人ゲノムをアセンブリ、その結果を韓国チームより一足早く、公開しています


さて、韓国人ゲノムの話に戻ります
メインに使った機械はもちろんPacBio RSII で、なんと380セルを使用し、101xのカバレッジ量の塩基を出力しました
PacBioのデータだけを使ってFalconアセンブリした結果は、Contig数が 3,128本、N50は 17.9 Mb !
これだけでも十分すごいです。
このContigデータを Irys でscaffold して、2,832本のScaffold、N50 は 44.8 Mb !!
さらに、HiSeq X Ten のデータとBAC のSangerシークエンスデータ、10X のリンカー配列を使用して、ハプロタイプフェージングを求めたらしい

もっとも長いScaffoldはなんと113Mbで、5番染色体を完全にカバーしているとのこと。
さらに8本の染色体アームはそれぞれ1本のScaffoldでカバーされていた。

また、現在リファレンスとして良く使用されているGRCh38ゲノム配列にもGapがたくさんあることがわかっていますが、これらのうち65個のGapは完全にふさぎ、また72個のGapを短くすることができたそうです。こういったGapにはTandemリピートが多く、ショートリードではふさぐことが不可能であった。

Seo氏曰く、このプロジェクトにかかったコストは、170万ドル
決して安いとはいえませんが、リファレンスゲノムを一から決める、という大きなプロジェクトにしては、どうでしょう。臨床に使え得る、プラチナゲノムを目指すからには、これくらいの規模は必要なのでしょうかね。


このAK1アセンブリは、Asian Genome Projectの第1フェーズでして、第2フェーズは1万人のコホートシークエンスです。
Seo氏曰く、既に3000人の日本人、3000人の韓国人、1000人のモンゴル人、のケースコントロールをシークエンスしていて、今は中国人を追加しているそうです。
これはさすがにショートリードでしょうけど。


さらに100Kプロジェクトというものもあるそうで、どんどんシークエンスが大規模になってきていますね。
マッピングや変異解析が大変だって?
大丈夫、今の時代は問題無いです。
DragenというFPGA使った超高速サーバ、ご存知ですね?
知らないというひとはとりあえずこちら
マクロジェン社も持っている

このサーバ、20分で30xのイルミナデータのマッピングー変異コールができるんです。

話がずれちゃいましたね。 はい、
PacBioでヒトゲノムデノボアセンブリの話でした


2016年10月1日土曜日

Sequel データ ついに公開!

Sequelのデータはどんなものか見てみたい!
という方のために、ようやく、オープンにできるデータセットがウェブにアップされました。
待ちに待ったという感じです。2015年10月1日のSequelリリースから早1年。
(今まで、オープンにできる程の「満足なデータ」が出ていなかった、というのも一方で事実です・・・)

今回公開されたシークエンスデータは、Arabidopsis thaliana  Ler-0 ゲノムを、Sequelの1M SMRT Cell 2つで読んで得られたもの。


ひとつ注意点として、このデータは、2016年9月現在の試薬・プロトコルを使ったランではありません。
今のケミストリーのローディングを向上させた、次バージョンの試薬・プロトコルを使用しているそうです。

先ず、20 μg のきれいなゲノムを 32 kb でシェアリング、ライブラリ作製した後、Blue Pippinで 20 kb サイズセレクション
12セル分のライブラリが回収できて、そのうち 2セルを6時間シークエンス
ローディング効率としては、on plate 濃度が 144 pmol ーこの数字はRSIIと同じです。(今までSequelでは、RSIIより遥かに多いDNA量を要求されていました)

この2セルから出てきたデータの集計です
総塩基数 10.8Gb(1セル5Gb)
MappableなサブリードN50が14.8kb!(注:平均サブリードではなく、Mapped サブリードのN50)
今回公開されたデータの注目すべき点のひとつは、20kbサイズセレクションされたロングライブラリーも、RSIIと同じくらいの長さのシークエンスができたことです。
今まで「数kbのショートライブラリならちゃんと読めるけれども、10kb以上のロングライブラリは、Sequelではまだ十分読めない」ということを、噂で聞いたことがあるかもしれません。ええ、本当です
でもこのデータで、新試薬からは20kbロングライブラリにも十分対応できることが示されました、ね。

もうひとつの注目点は、先にも挙げた、ローディング効率です。
RSIIと同じ、144 pmol のライブラリ量でもシークエンスできるようになったことで、ライブラリ作製の手間とコスト、必要DNA量がだいぶ抑えられるようになりました。
とは言ってもまだ20μgからスタートしていますので、少ない量とは言えませんが・・・。


生データもダウンロードできます。
Subread.bamという、シークエンスデータなのにBAMファイル!!です
Sequelの生データについてはまた別の機会に

ちなみにアセンブリ結果はこちら
Falcon Assemblyの結果、Contig N50は10.4Mb
表の一番右がSequelの結果で、その隣、比較対象がP5C3って・・・。
P6C4との比較は無いの!? という突っ込みはさておき、Sequelでもちゃんとここまでの結果出ますよ、的な結果でした。