德拉根生物ITプラットフォームを用いたエクソームシーケンスから全ゲノムシーケンスへの拡張
はじめに
2010年,凯尔Retterer氏はメリーランド州に本社を置くゲノム解析会社であるGeneDxに入社しました。バイオインフォマティクスエンジニアとして入社したRetterer氏は,GeneDx社を単一遺伝子アッセイサービスを提供する会社から,今では全ゲノムシーケンス(WGS)と全ゲノム解析を提供する会社へと成長させるのに貢献しました。
現在,GeneDx社のチーフ・イノベーション・オフィサーとなったRetterer氏は,検査開発とゲノムデータサイエンスを監督しています。近年,同社はエクソームシーケンスからWGSへの移行における問題に直面していました。“6000年NovaSeqシステムが生成するWGSデータの量はサンプル当たりでエクソームシーケンスデータの約25倍となり,当社のコンピューティングシステムや処理時間に負担をかけていました”とRetterer氏は述べています。“ゲノムデータ処理にさらに特化し,最適化されたアプローチを取ることに利点を見出しました。DRAGEN(动态读取分析基因组学)看到你プラットフォームは解析時間などの面で私たちのニーズを満たしてくれたのです。」
i社区は、基因X社におけるゲノム解析サービスの進化および同社の製品提供や成長をサポートするために、WGSデータの二次解析用德拉根プラットフォームの導入について复述者氏にお話を伺いました。
質問:基因X社のミッションを教えてください。
凯尔Retterer氏(以下,KR):GeneDx社は2000年に雪莉贝尔氏と约翰·康普顿氏により設立されました。両氏はNIHの研究者で,超希少疾患のための遺伝子アッセイを開発し,それらのアッセイをサービスとして提供したいと考えました。そこから徐々に拡大していき,対象とする希少疾患を追加して,染色体マイクロアレイや次世代シーケンサー(上天)などの新しいテクノロジーの出現に合わせて徐々にフォーカスを広げていきました。現在では遺伝性がんや心筋症などの比較的一般的な疾患が主なビジネス分野となっていますが,ここ数年間で最も成長がみられたのはエクソームシーケンスとゲノムシーケンスに焦点を合わせた臨床ゲノムプログラムでした。
質問:社内でのご自分の役割について教えてください。
基米-雷克南:入社時の私の役割は,挥动への移行や挥动の発展をサポートするためのデータ処理・解析のパイプラインおよびツールの開発でした。3年間で,主に単一遺伝子アッセイの実施から小さなパネル,そしてエクソームシーケンスに到達しました。
エクソームシーケンスやその他の複雑な解析の発展により,私は新しいアッセイの構想から完了までを手掛けるアッセイ開発グループおよび最新のWGSデータを含む全ゲノムデータを取り扱うデータサイエンスグループのチーフ・イノベーション・オフィサーになりました。
德拉根プラットフォームにより解析アーキテクチャを拡張し、WGSビジネスの発展に対処するスピードを向上させることができます...さらに、減価償却する資本設備を購入しているわけではなく、必要とするレベルのコンピューティングにお金をかけているだけなので、柔軟性も得られます…」
質問:基因X社ではどのようなバイオインフォマティクスプラットフォームが使用されていますか?
基米-雷克南:当社には,長年かけて拡張してきたオンプレミス型高性能コンピューティング・グリッドがあります。通常,別のシーケンサーを購入するたびに,それに応じてコンピューティングシステムとストレージシステムを拡張してきました。NovaSeq 6000, 2500年HiSeqおよびMiSeqといった複数のシステム,さらにiSeq 100システムやサンガー法,その他のシーケンス以外のプラットフォームから得られたデータを取り扱います。
2011年にはエクソームシーケンス解析能力の強化を試みました。しかし,当時はその問題のほとんどが未解決でした。エクソームに相当するデータが得られたとして,それをどのように解析できるのでしょうか吗?今では複数のツールが市販されていますが,当時の選択肢は非常に限られていました。購入または構築の決断を下さなければなりませんでしたが,購入できるものはありませんでした。そのため,GeneDx社内の遺伝学者と協力して独自のバイオインフォマティクスプラットフォームを構築しました。その方がよい場合は,二次解析にGATKやBWAなどのオープンソースツールを利用しました。また,臨床的に重要な状況に対処するためにバリアントコーラーなどのカスタムプログラムも構築しました。さらに,専用の三次臨床解析プラットフォームも開発しました。
質問:WGSデータを生成し始めてからはどのような問題に直面しましたか吗?
基米-雷克南:汎用ハードウェアでの解析用にエクソームデータを処理するのは1.日以内でできます。WGSデータを現在使用しているアーキテクチャに投入し、エクソームと同じようにゲノムを処理しようとすると、2.週間かかります。
これを改善する1つの方法は,高性能コンピューター(HPC)からより多くのコンピューティングリソースをエクソームではなくゲノムの処理に割り当てることでしょう。ただしそうすると,ゲノムがすべてのリソースを長時間独占し続けることになるというボトルネックが生じるおそれがあります。
逆に,放置して処理が終わるのを待つと,サンプルのターンアラウンド時間に悪影響が及びます。また,シーケンサーから質の低いデータが得られると,それも問題になります。例えば2週間の処理が終わるまでコンタミのあるサンプルを検出することができないかもしれません。
質問:バイオインフォマティクスのオプションにはどのようなものがありましたか吗?
德拉根プラットフォームの他にも、従来のハードウェアの追加購入、クラウドへの移行、GPUベースのシステムの追加なども検討しました。1.つのゲノムを処理するには、1.つのエクソームに必要なハードウェアの約25倍が必要になります。WGS用に25倍のハードウェアを購入したのにゲノムサンプル量が見込みの半分しか得られなかった場合、ハードウェアはほとんど使用されなくなるでしょう。
クラウドはもう1.つのオプションでした。クラウドではある程度まで無限に拡張できます。WGSデータの場合、転送が必要なデータ量を考えるとクラウドはあまり合理的ではありません。負荷のかかるタスクを実行するためにオンプレミス型コンピューティングを所有する方が時間とコストの効率が高くなります。また社内のデータセキュリティチームにとっても喜ばしいことでしょう。
すでにいくつかのGPUベースのシステムを検討しました。当社のバイオインフォマティクス開発チームは計算アルゴリズムの実装よりも臨床アプリケーションに着目しているため,検討したシステムは少しばかり特化され過ぎていました。
「德拉根」プラットフォームは当社で使用している泥浆高性能混凝土システムに直接統合されています。つまり、必要に応じて德拉根の処理スピードを利用することができるのです。」
質問:どうしてDRAGENプラットフォームに決めたのですか吗?
基米-雷克南:最終的に当社が選択したDRAGENプラットフォームは発売から数年経っています。私たちはDRAGENがイルミナの製品となる前からすでにDRAGENチームとは数回話し合いをしていました。DRAGENプラットフォームを追加することで,当社の解析アーキテクチャを拡張し,WGSビジネスの発展に対処するスピードを向上させることができます。さらに,減価償却する資本設備を購入するのではなく必要とするレベルのコンピューティングにお金をかけているだけなので,クラウドにする場合と少し似ていますがオンプレミスの利点も得られるため,DRAGENプラットフォームでは柔軟性も得られます。また,実装しているワークフローの大半は私たちがすでに実行しているGATKに似たワークフローであり,下流でも上流でも既存のパイプラインインフラと良好に統合されます。
現在、当社ではすべてのWGSがNovaSeq 6000システムで実施されており、データは德拉根パイプラインを経由しています。現在でも、その他のデータは標準的な高性能混凝土システムを介して処理されています。德拉根プラットフォームは当社で使用している泥浆高性能混凝土システムに直接統合されています。つまり、必要に応じて德拉根の処理スピードを利用することができるのです。また、これにより既存のNGSパイプラインへの統合も簡単になりました。
質問:德拉根プラットフォームの稼働状況について教えてください。
德拉根プラットフォームのスピードは約束されたとおりでした。全ゲノムを数時間で処理できます。德拉根プラットフォームは、私たちにとって究極の評価基準であるバリアントコールの質において私たちの期待を超えています。
メンデル型遺伝病の解析では非常に稀なバリアントが重要です。しかし,データに含まれるランダムな確率的ノイズを取り除くことは困難です。WGSのトリオ解析を考えてみましょう。ノイズから20の余分なバリアントが検出され,そのすべてが从头変異に見える場合,これら20の推定変異を1つずつ調べて,関連の有無を判断しなければなりません。つまり,本当にバリアントなのか,それとも単なるノイズなのかという判断です。これにより余分な解析時間がかかり,サンガー法による確認という追加作業が発生するため,コストが増大し,ターンアラウンド時間が延長します。
私たちは,難しい設定もなくわずかなパラメーター調整のみでDRAGENプラットフォームを使用して,この余分なノイズの大部分を除去することができました。評価が必要なバリアントコール数は減っていますが,その結果として何も失っていません。さらに,DRAGENプラットフォームで処理したWGSでは,過去のパイプラインで処理したものよりも感度がわずかに向上しています。
質問:既存の解析パイプラインに比べて德拉根プラットフォームはいかがですか?
基米-雷克南:私たちは,瓶中基因组サンプルを用いて現在のパイプラインとの比較でDRAGENプラットフォームを評価しました。indelについては,コール率がわずかに上がり,精度が大幅に上がりました。indelのコール率は,当社の現パイプラインでは約98%ですが,DRAGENプラットフォームでは98.5%まで上がることを確認しました。大幅な増大はindelに対する精度で確認され,全サンプルで一貫して85%から99%に上がりました。
“DRAGENプラットフォームの導入により,迅速全ゲノム解析を提供することも考えられるようになりました。」
質問:既存のアーキテクチャに德拉根プラットフォームはうまく適合していますか?
韩国:ほとんどの人がそうだと思いますが、当社のパイプラインは盖特の「ベストプラクティス」とほぼ同じです。德拉根プラットフォームは盖特に似ており、既存のコンピューティング・グリッドと統合できます。
当社では階層化アプローチを用いていて,独自に開発したカスタムアルゴリズムがあります。必要に応じて,一部のジョブをDRAGENプラットフォームに送り,その他を従来の計算ノードに送ることができます。
当社の高性能混凝土アーキテクチャはSLURM工作负载管理器で、接続の際に深刻な問題は一切発生しませんでした。ワークフロー定義言語(WDL)のワークフローを選択し、德拉根プラットフォームを備えた克伦威尔を介して実行することができます。本当にすぐに使用できました。
質問:コスト面での比較はどうですか吗?
基米-雷克南:一番節約できた点は,WGS解析を実施するために新しいハードウェアを購入しなかったことです。コンピューティングに多くのコストをかける必要がなく,資本が増加しました。6000年NovaSeqシステムをもう一台購入した際には、計算用ブレードを追加購入する必要がありませんでした。その代わりに、DRAGENプラットフォームを選んだのです。取り扱うWGSの量を2倍にすれば、DRAGENサーバーのライセンスを追加取得するだけで、これ以上ハードウェアを購入する必要はありません。
質問:ゲノム解析の今後について教えてください。
韩国:当社ではターンアラウンド時間が7.日の「特急エクソーム」サービスを提供しています。当社にとってもお客様にとってもご満足いただけるプログラムです。德拉根プラットフォームの導入により、迅速な全ゲノム解析を提供することも考えられるようになりました。これは拉迪儿童基因组医学研究所が実施しており、彼らも德拉根プラットフォームを使用しています。1.
メンデル型遺伝病の解析では,最初に選択する方法としてターゲット法を使い続けるのではなくエクソームやゲノムを取り入れる方向に移行する数が増えているのを目の当たりにしています。段階的検査法の代わりにエクソームやゲノムを注文し,そこを出発点としてその後必要に応じてよりターゲットを絞った検査を追加し,フォローアップを行うことができます。多くの場合,これはコスト効率の高いアプローチであり,診断への近道となります。
最終的には,最初に選択する検査としてWGSに移行する遺伝子検査が増えていくと思います。ターゲットを絞った解析を注文する人もいるかもしれませんが,データ生成は全ゲノムになります。一部の人が予測しているようにゲノムシーケンスのコストが大幅に下がれば,最終的にはエクソームを実行する理由がなくなります。今後数年間ですべてがゲノムになり,当社はそのような未来に対応できるようにしておきたいのです。
このインタビューに登場するイルミナのソフトウェアやシステムについての詳細は,以下のリンクからご覧いただけます:
参考文献
- Rady团队自动化罕见病快速儿科序列解释Dx。GenomeWeb.April 24日2019.2019年4月24日アクセス。