客户面试

DRAGEN看到你プラットフォームを用いたエクソームシーケンスから全ゲノムシーケンスへの拡張

DRAGENプラットフォームにより,GeneDx社は全ゲノム解析への拡張と高精度バリアント同定が可能になりました。

DRAGEN看到你プラットフォームを用いたエクソームシーケンスから全ゲノムシーケンスへの拡張

DRAGEN看到你プラットフォームを用いたエクソームシーケンスから全ゲノムシーケンスへの拡張

はじめに

2010年,凯尔Retterer氏はメリーランド州に本社を置くゲノム解析会社であるGeneDxに入社しました。バイオインフォマティクスエンジニアとして入社したRetterer氏は,GeneDx社を単一遺伝子アッセイサービスを提供する会社から,今では全ゲノムシーケンス(WGS)と全ゲノム解析を提供する会社へと成長させるのに貢献しました。

現在、基因X社のチーフ・イノベーション・オフィサーとなった复述者氏は、検査開発とゲノムデータサイエンスを監督しています。近年、同社はエクソームシーケンスからWGSへの移行における問題に直面していました。「NovaSeq 6000」システムが生成するWGSデータの量はサンプル当たりでエクソームシーケンスデータの約25倍となり、当社のコンピューティングシステムや処理時間に負担をかけていました」と复述者氏は述べています。「ゲノムデータ処理にさらに特化し、最適化されたアプローチを取ることに利点を見出しました。DRAGEN(基因组学动态读取分析)生物ITプラットフォームは解析時間などの面で私たちのニーズを満たしてくれたのです。」

iCommunityは,GeneDx社におけるゲノム解析サービスの進化および同社の製品提供や成長をサポートするために,WGSデータの二次解析用DRAGENプラットフォームの導入についてRetterer氏にお話を伺いました。

変更テキストはここから
メリーランド州ゲイザースバーグに本社のあるGeneDx社のチーフ・イノベーション・オフィサーの凯尔Retterer氏。

質問:GeneDx社のミッションを教えてください。

凯尔·雷特尔氏(以下、韩元):GeneDx社は2000年に雪莉贝尔氏と约翰·康普顿氏により設立されました。両氏はNIHの研究者で,超希少疾患のための遺伝子アッセイを開発し,それらのアッセイをサービスとして提供したいと考えました。そこから徐々に拡大していき,対象とする希少疾患を追加して,染色体マイクロアレイや次世代シーケンサー(上天)などの新しいテクノロジーの出現に合わせて徐々にフォーカスを広げていきました。現在では遺伝性がんや心筋症などの比較的一般的な疾患が主なビジネス分野となっていますが,ここ数年間で最も成長がみられたのはエクソームシーケンスとゲノムシーケンスに焦点を合わせた臨床ゲノムプログラムでした。

質問:社内でのご自分の役割について教えてください。

基米-雷克南:入社時の私の役割は,挥动への移行や挥动の発展をサポートするためのデータ処理・解析のパイプラインおよびツールの開発でした。3年間で,主に単一遺伝子アッセイの実施から小さなパネル,そしてエクソームシーケンスに到達しました。

エクソームシーケンスやその他の複雑な解析の発展により,私は新しいアッセイの構想から完了までを手掛けるアッセイ開発グループおよび最新のWGSデータを含む全ゲノムデータを取り扱うデータサイエンスグループのチーフ・イノベーション・オフィサーになりました。

“…DRAGENプラットフォームにより解析アーキテクチャを拡張し,WGSビジネスの発展に対処するスピードを向上させることができます…さらに,減価償却する資本設備を購入しているわけではなく,必要とするレベルのコンピューティングにお金をかけているだけなので,柔軟性も得られます……”

質問:GeneDx社ではどのようなバイオインフォマティクスプラットフォームが使用されていますか吗?

基米-雷克南:当社には,長年かけて拡張してきたオンプレミス型高性能コンピューティング・グリッドがあります。通常,別のシーケンサーを購入するたびに,それに応じてコンピューティングシステムとストレージシステムを拡張してきました。NovaSeq 6000, 2500年HiSeqおよびMiSeqといった複数のシステム,さらにiSeq 100システムやサンガー法,その他のシーケンス以外のプラットフォームから得られたデータを取り扱います。

2011年にはエクソームシーケンス解析能力の強化を試みました。しかし、当時はその問題のほとんどが未解決でした。エクソームに相当するデータが得られたとして、それをどのように解析できるのでしょうか?今では複数のツールが市販されていますが、当時の選択肢は非常に限られていました。購入または構築の決断を下さなければなりませんでしたが、購入できるものはありませんでした。そのため、基因X社内の遺伝学者と協力して独自のバイオインフォマティクスプラットフォームを構築しました。その方がよい場合は、二次解析に盖特やBWAなどのオープンソースツールを利用しました。また、臨床的に重要な状況に対処するためにバリアントコーラーなどのカスタムプログラムも構築しました。さらに、専用の三次臨床解析プラットフォームも開発しました。

質問:WGSデータを生成し始めてからはどのような問題に直面しましたか吗?

基米-雷克南:汎用ハードウェアでの解析用にエクソームデータを処理するのは1日以内でできます。WGSデータを現在使用しているアーキテクチャに投入し,エクソームと同じようにゲノムを処理しようとすると,2週間かかります。

これを改善する1つの方法は,高性能コンピューター(HPC)からより多くのコンピューティングリソースをエクソームではなくゲノムの処理に割り当てることでしょう。ただしそうすると,ゲノムがすべてのリソースを長時間独占し続けることになるというボトルネックが生じるおそれがあります。

逆に,放置して処理が終わるのを待つと,サンプルのターンアラウンド時間に悪影響が及びます。また,シーケンサーから質の低いデータが得られると,それも問題になります。例えば2週間の処理が終わるまでコンタミのあるサンプルを検出することができないかもしれません。

質問:バイオインフォマティクスのオプションにはどのようなものがありましたか吗?

基米-雷克南:DRAGENプラットフォームの他にも,従来のハードウェアの追加購入,クラウドへの移行,GPUベースのシステムの追加なども検討しました。1つのゲノムを処理するには,1つのエクソームに必要なハードウェアの約25倍が必要になります。WGS用に25倍のハードウェアを購入したのにゲノムサンプル量が見込みの半分しか得られなかった場合,ハードウェアはほとんど使用されなくなるでしょう。

クラウドはもう1つのオプションでした。クラウドではある程度まで無限に拡張できます。WGSデータの場合,転送が必要なデータ量を考えるとクラウドはあまり合理的ではありません。負荷のかかるタスクを実行するためにオンプレミス型コンピューティングを所有する方が時間とコストの効率が高くなります。また社内のデータセキュリティチームにとっても喜ばしいことでしょう。

すでにいくつかのGPUベースのシステムを検討しました。当社のバイオインフォマティクス開発チームは計算アルゴリズムの実装よりも臨床アプリケーションに着目しているため,検討したシステムは少しばかり特化され過ぎていました。

“DRAGENプラットフォームは当社で使用している粘HPC很多システムに直接統合されています。つまり,必要に応じてDRAGENの処理スピードを利用することができるのです。」

質問:どうしてDRAGENプラットフォームに決めたのですか吗?

基米-雷克南:最終的に当社が選択したDRAGENプラットフォームは発売から数年経っています。私たちはDRAGENがイルミナの製品となる前からすでにDRAGENチームとは数回話し合いをしていました。DRAGENプラットフォームを追加することで,当社の解析アーキテクチャを拡張し,WGSビジネスの発展に対処するスピードを向上させることができます。さらに,減価償却する資本設備を購入するのではなく必要とするレベルのコンピューティングにお金をかけているだけなので,クラウドにする場合と少し似ていますがオンプレミスの利点も得られるため,DRAGENプラットフォームでは柔軟性も得られます。また,実装しているワークフローの大半は私たちがすでに実行しているGATKに似たワークフローであり,下流でも上流でも既存のパイプラインインフラと良好に統合されます。

現在,当社ではすべてのWGSがNovaSeq 6000システムで実施されており,データはDRAGENパイプラインを経由しています。現在でも,その他のデータは標準的なHPCシステムを介して処理されています。DRAGENプラットフォームは当社で使用している粘HPC很多システムに直接統合されています。つまり,必要に応じてDRAGENの処理スピードを利用することができるのです。また,これにより既存の挥动パイプラインへの統合も簡単になりました。

質問:DRAGENプラットフォームの稼働状況について教えてください。

基米-雷克南:DRAGENプラットフォームのスピードは約束されたとおりでした。全ゲノムを数時間で処理できます。DRAGENプラットフォームは,私たちにとって究極の評価基準であるバリアントコールの質において私たちの期待を超えています。

メンデル型遺伝病の解析では非常に稀なバリアントが重要です。しかし,データに含まれるランダムな確率的ノイズを取り除くことは困難です。WGSのトリオ解析を考えてみましょう。ノイズから20の余分なバリアントが検出され,そのすべてが新创変異に見える場合,これら20の推定変異を1つずつ調べて,関連の有無を判断しなければなりません。つまり,本当にバリアントなのか,それとも単なるノイズなのかという判断です。これにより余分な解析時間がかかり,サンガー法による確認という追加作業が発生するため,コストが増大し,ターンアラウンド時間が延長します。

私たちは、難しい設定もなくわずかなパラメーター調整のみで德拉根プラットフォームを使用して、この余分なノイズの大部分を除去することができました。評価が必要なバリアントコール数は減っていますが、その結果として何も失っていません。さらに、德拉根プラットフォームで処理したWGSでは、過去のパイプラインで処理したものよりも感度がわずかに向上しています。

質問:既存の解析パイプラインに比べてDRAGENプラットフォームはいかがですか吗?

基米-雷克南:私たちは,瓶中基因组サンプルを用いて現在のパイプラインとの比較でDRAGENプラットフォームを評価しました。indelについては,コール率がわずかに上がり,精度が大幅に上がりました。indelのコール率は,当社の現パイプラインでは約98%ですが,DRAGENプラットフォームでは98.5%まで上がることを確認しました。大幅な増大はindelに対する精度で確認され,全サンプルで一貫して85%から99%に上がりました。

“DRAGENプラットフォームの導入により,迅速全ゲノム解析を提供することも考えられるようになりました。」

質問:既存のアーキテクチャにDRAGENプラットフォームはうまく適合していますか吗?

基米-雷克南:ほとんどの人がそうだと思いますが,当社のパイプラインはGATKの”ベストプラクティス”とほぼ同じです。DRAGENプラットフォームはGATKに似ており,既存のコンピューティング・グリッドと統合できます。

当社では階層化アプローチを用いていて、独自に開発したカスタムアルゴリズムがあります。必要に応じて、一部のジョブを德拉根プラットフォームに送り、その他を従来の計算ノードに送ることができます。

当社のHPCアーキテクチャは粘Workload Manager很多で,接続の際に深刻な問題は一切発生しませんでした。ワークフロー定義言語(世界)のワークフローを選択し,DRAGENプラットフォームを備えた克伦威尔を介して実行することができます。本当にすぐに使用できました。

質問:コスト面での比較はどうですか吗?

韩国:一番節約できた点は、WGS解析を実施するために新しいハードウェアを購入しなかったことです。コンピューティングに多くのコストをかける必要がなく、資本が増加しました。NovaSeq 6000システムをもう一台購入した際には、計算用ブレードを追加購入する必要がありませんでした。その代わりに、德拉根プラットフォームを選んだのです。取り扱うWGSの量を2.倍にすれば、德拉根サーバーのライセンスを追加取得するだけで、これ以上ハードウェアを購入する必要はありません。

質問:ゲノム解析の今後について教えてください。

基米-雷克南:当社ではターンアラウンド時間が7日の”特急エクソーム”サービスを提供しています。当社にとってもお客様にとってもご満足いただけるプログラムです。DRAGENプラットフォームの導入により,迅速な全ゲノム解析を提供することも考えられるようになりました。これは瑞迪儿童基因组医学研究所的が実施しており,彼らもDRAGENプラットフォームを使用しています。1

メンデル型遺伝病の解析では,最初に選択する方法としてターゲット法を使い続けるのではなくエクソームやゲノムを取り入れる方向に移行する数が増えているのを目の当たりにしています。段階的検査法の代わりにエクソームやゲノムを注文し,そこを出発点としてその後必要に応じてよりターゲットを絞った検査を追加し,フォローアップを行うことができます。多くの場合,これはコスト効率の高いアプローチであり,診断への近道となります。

最終的には,最初に選択する検査としてWGSに移行する遺伝子検査が増えていくと思います。ターゲットを絞った解析を注文する人もいるかもしれませんが,データ生成は全ゲノムになります。一部の人が予測しているようにゲノムシーケンスのコストが大幅に下がれば,最終的にはエクソームを実行する理由がなくなります。今後数年間ですべてがゲノムになり,当社はそのような未来に対応できるようにしておきたいのです。

このインタビューに登場するイルミナのソフトウェアやシステムについての詳細は、以下のリンクからご覧いただけます:

DRAGEN看到你プラットフォーム

6000年NovaSeqシステム

米塞克システム

100年iSeqシステム

参考文献
  1. Rady团队自动化罕见病快速儿科序列解释Dx。GenomeWeb.April 24日2019.2019年4月24日アクセス。