客户面试

用DRAGEN Bio-IT平台从外显子组扩展到全基因组测序

DRAGEN平台使GeneDx能够进行全基因组分析,并精确识别变异。

用DRAGEN Bio-IT平台从外显子组扩展到全基因组测序

用DRAGEN Bio-IT平台从外显子组扩展到全基因组测序

介绍

2010年,凯尔克兰特加入了基于马里兰州的基因组分析公司的Enenedx。作为生物信息学工程师,他支持从单基因测定服务公司到现在提供全基因组测序(WG)和分析的组织的崛起。

如今,他是GeneDx的首席创新官,负责监督测试开发和基因组数据科学。最近,该公司面临着从外显子组测序向WGS转型的挑战。Retterer说:“NovaSeq 6000系统生成的WGS数据量大约是每个样本外显子组测序数据量的25倍,这给我们的计算系统和处理时间带来了压力。”“我们看到了更专业、更优化的基因组数据处理方法的好处。DRAGEN(基因组学动态阅读分析)生物it平台满足了我们的分析周转需求等。”

iccommunity与Retterer先生讨论了GeneDx商业基因组分析的发展,以及该公司采用DRAGEN平台对WGS数据进行二次分析,以支持公司的产品供应和增长

Alt文本在这里
凯尔·克terter是马里兰州Gaithersburg的Genedx的首席创新官。

问:GeneDx的使命是什么?

凯尔·克奈特尔(KR):Genedx于2000年由Sherri Bale和John Compton成立。他们是研究人员,为超稀有障碍开发了遗传测定,并希望将它们作为服务。它们从中逐渐扩展,添加到稀有障碍的菜单,随着时间的推移,作为新技术,例如染色体微阵列和下一代测序(NGS)。虽然相对常见的疾病领域,例如遗传癌症和心肌病,现在是主要的业务领域,但过去几年的最大增长一直在我们的临床基因组学计划,重点是exome和基因组测序。

问:你在公司的角色是什么?

基米-雷克南:当我开始工作时,我的职责是开发数据处理和分析管道和工具,以支持向NGS的过渡和增长。在三年的时间里,我们从主要的单基因分析,到小型面板,再到外显子组测序。

随着外显子组测序和其他复杂活动的发展,我已成为首席创新官,负责化验开发组(负责从概念到完成新的化验)和数据科学组(负责处理所有基因组数据,包括最近的WGS数据)。

“...... Dragen平台使我们能够扩展分析架构并提高处理WGS业务的增长的速度......它还为我们提供了灵活性,因为我们不购买贬值资本设备,只需支付计算水平。我们需要......“

问:Enenedx使用什么生物信息学平台?

KR:我们有一个内部前提的高性能计算网格,我们多年来缩减了。通常,每次购买另一个序列仪时,我们都会相应地扩展计算和存储系统。我们处理来自几个Novaseq 6000,Hiseq 2500和MiseQ系统的数据,以及ISEQ 100系统以及Sanger测序和其他非排序平台。

2011年,我们试图建立外显子组测序分析能力。这在当时基本上是一个未解决的问题。考虑到外显子组的数据价值,我们如何分析它?现在市场上有好几种工具,但当时的选择非常有限。这是一个买还是建的决定,但没有什么可以买的,所以我们自己建立了我们的生物信息学平台,与GeneDx的遗传学家携手合作。我们使用了像GATK和BWA这样的开源工具进行有意义的二次分析。我们还构建了一些定制程序,例如变体调用程序,以处理一些临床上重要的场景。除此之外,我们还开发了一个专有的三级临床分析平台。

问:当您开始生产WGS数据时,您面临着什么问题?

基米-雷克南:需要不到一天的时间来处理商品硬件分析的Exome数据。通过我们当前的架构将WGS数据放置,只是让基因组经历,好像它们是展开的,花了两周。

改进的一种方法是将从高性能计算机(HPC)提升到处理基因组而不是Exomes的一种方法。然而,这样做可以创造瓶颈,基因组最终可能会为我们的所有资源达到太久。

相比之下,如果我们只是让它运行并等待它来完成,那将影响样本周转时间。如果我们关闭序列仪的质量数据差,那么它也是一个问题。例如,我们可能无法检测到污染的样品,直到两周的处理结束。

问:你的生物信息学选择是什么?

KR:除了DRADREN平台外,我们还考虑购买更传统的硬件,转换为云,或添加基于GPU的系统。为了支持一个基因组,我们需要的硬件比一个exome所需的硬件更多25倍。如果我们为WG的硬件购买了25倍,但只有我们期待的一半基因组样品,那么硬件大部分时间都会闲置。

云计算是另一个选择。我们可以无限放大云,直到某一点。对于WGS数据来说,云没有多大意义,因为我们需要传输大量的数据。使用内部计算来完成繁重的工作将会花费更多的时间和成本效益。这也会让我们的数据安全团队很高兴。

我们已经研究了一些基于GPU的系统。由于我们的生物信息学开发团队更为集中于临床应用而不是计算算法的实施,因此他们对我们来说有点过于专业。

“DRAGEN平台直接集成到我们的SLURM高性能计算系统,这意味着我们可以在需要的基础上利用DRAGEN的处理速度。”

问:你是如何决定拖拉平台的?

基米-雷克南:我们的最终选择,DRAGEN平台,已经存在了几年。在DRAGEN成为Illumina的一部分之前,我们已经与DRAGEN团队进行了多次交谈。加入DRAGEN平台使我们能够扩展分析架构,并提高速度,以应对我们WGS业务的增长。DRAGEN平台也给了我们灵活性,因为我们不会购买贬值的资本设备,而只支付我们需要的计算水平,有点像云计算,但具有本地优势。它还实现了与我们已经运行的类似gatk的工作流程,并与我们现有的上下游管道基础设施很好地集成在一起。

我们的所有WGS目前正在Novaseq 6000系统上进行,数据通过Dragen管道进行数据。我们的其他数据仍通过标准的HPC系统处理。DRADREN平台直接集成到我们的SLURM HPC系统中,这意味着我们可以根据需要利用DRADREN处理速度。这也使得融入我们现有的NGS管道方便。

问:DRAGEN平台表现如何?

雷克南:DRAGEN平台的速度和承诺的一样快。我们可以在几小时内处理整个基因组。DRAGEN平台的变型调用质量超出了我们的预期,这是对我们的最终衡量。

非常罕见的变体在分析孟德尔疾病方面很重要。然而,数据中的随机随机噪声难以过滤。考虑一个WGS Trio测试:如果我们有额外的20个噪音变体,它们都是如此德诺维突变,然后我们必须看看每一个推定的突变并弄清楚是否相关。这是一个真正的变体,还是只是噪音?这导致额外的分析时间和额外的桑格确认,提高了我们的成本并降低了我们的周转时间。

我们能够使用DRAGEN平台清理大部分额外的噪音,只需要微调参数。我们需要评估的变量调用更少,因此我们不会失去任何东西。除此之外,我们发现通过DRAGEN平台处理的WGS的灵敏度比我们之前的管道略高。

问:与你们现有的分析管道相比,DRAGEN平台有什么不同?

我们使用Genome in a Bottle样本对DRAGEN平台进行了基准测试。对于indels,我们在召回率上有了小幅提升,在精确度上有了显著提高。我们目前管道中indele的召回率约为98%,而DRAGEN平台的召回率上升到了98.5%。显著的增益是indels的精度,从85%到99%,而且在所有的样本中都是一致的。

“有了DRAGEN平台,我们现在也可以考虑提供快速全基因组分析了。”

问:DRAGEN平台如何适应你们现有的架构?

KR:像大多数人一样,我们的管道广泛地与GATK“最佳实践”相似。DRADREN平台是GATK的,使我们能够将其与现有的计算网格集成。

我们使用分层的方法。我们开发了自定义算法。我们可以根据需要将一些任务发送到DRAGEN平台,将其他任务发送到传统的计算节点。

我们的HPC架构是SLURM工作负载管理器,我们没有遇到任何真正的问题。我们可以选择工作流描述语言(WDL)工作流,并通过DRAGEN平台通过Cromwell执行它们。直接代入。

问:成本比较起来怎么样?

基米-雷克南:真正的节省是我们不需要购买新的硬件来进行WGS分析。这是额外的资本,我们不需要投入到计算上。当我们购买另一个NovaSeq 6000系统时,我们不需要为它购买更多的计算刀片。相反,我们选择了DRAGEN平台。如果我们要将WGS的数量增加一倍,我们只需要增加DRAGEN服务器的授权,就不需要再引进任何硬件了。

问:基因组分析的未来是什么?

基米-雷克南:我们提供“快速外显子组”服务,有七天的周转时间。对我们和我们的客户来说,这是一个成功的项目。有了DRAGEN平台,我们现在也可以考虑提供快速全基因组分析了。这是雷迪儿童基因组医学研究所一直在做的事情。他们也一直在使用DRAGEN平台。1

我们看到Mendelian疾病的更多分析将朝向极端或基因组转移为一线方法,而不是采用目标方法。人们可以订购Exome或Genome,而是可以在那里开始随访,如果需要,可以在那里开始随访。这通常是一种更具成本效益的方法,并提供更快的诊断路径。

最终,我看到越来越多的基因检测将WGS作为一线检测。有人可能会要求进行有针对性的分析,但生成的数据将是整个基因组。如果基因组测序的成本像一些人预测的那样降得很低,最终将没有理由运行外显子。在接下来的几年里,基因组是一切的发展方向,我们希望为这个未来做好准备。

Illumina和广泛的研究员合作合伙人合作开发二级分析工具

llumina和Broad研究所正在合作开发一套二级基因组分析管道。此次合作将产生新的方法,将Illumina的DRAGEN™管道和技术与Broad的基因组分析工具包(GATK)相结合。阅读更多

yobet亚洲亚博官网人口了解更多关于本文中提到的软件和系统的信息:

拖动生物IT平台

Novaseq 6000系统

miseq系统

ISEQ 100系统

参考文献
  1. Rady团队自动化罕见病快速儿科序列解释Dx。GenomeWeb。2019年4月24日。2019年4月24日访问。