跳到内容

DRADEN WINS在PRECISIONFDA真理挑战v2展示展示精度从ALT-IMANN MAPPAPT和GRAPH参考基因组获得

Rami Mehio,Michael Ruehle,Severine Catreux,Cooper Roddey,Shyamal Mehtalia,Bryan Lajoie,Heidi Norton,Varun Jain

分享这篇文章

摘要

PrecisionFDA最近组织了真相挑战v2,可以比较依赖于源自链接和长读排序的新事实集中的难以映射区域中的映射和变体调用算法的准确性。PrecisionFDA于8月3日公布了挑战赛结果,DRAGEN的mapper +变型调用者赢得了Illumina阅读难度区域和所有基准区域的准确性竞赛,比第二名的参赛者分别少38%和28%的调用错误。在这次挑战中,DRAGEN的表现比之前的DRAGEN版本高出近50%,同时仍然在单个20核服务器+1 FPGA上在不到25分钟的时间内分析整个基因组。为了获得这些结果,DRAGEN使用了替代感知映射能力,将几十万个短的、从分阶段种群单倍型衍生出来的替代contigs添加到hg38参考中,有效地将其演化为图参考。另外,DRADREN变体呼叫者利用新技术来更好地识别并处理读取堆叠中的重叠变体。

介绍

估计99.9%的人类基因组在个体间是保守的。这意味着只有0.1%会导致一个人的癌症风险升高,预测他们无法代谢特定药物,或者解释他们遗传疾病的病因。准确识别个体间的遗传变异对于精确医学、疾病诊断、疾病遗传起源研究和药物发现至关重要。在这一程度上,瓶中基因组(GiaB)联盟和国家标准与技术研究所(NIST)已经提供了选择主题的真相集,如NA12878,覆盖了基因组的很大一部分,使生物信息学家能够测量其识别变异工具的准确性。特别重要的是映射和变量调用步骤。

最近使用链接和长期读取的GIAIA联盟和NIST来释放一个扩展的真相v4.2,涵盖92%的基因组(从前85%的增长),具有显着提高了同源地区的覆盖范围和难以实现的地图区域包括193个临床相关基因。这些真理集是一种宝贵的资源和关键推动者,可以在以前更多的基因组的不透明区域开发和基准次要分析方法。虽然通过利用长读技术来表明通常难以访问的区域来开发NIST真理集,但我们在此表明​​,通过突破性的绘图功能和小型变体呼叫,DRADEN现在在困难方面提供更好的准确性与Illumina读取的基因组的图。这些结果突出了两个关键的外卖:

  1. 通过利用分阶段变体的种群单倍型并用群体衍生的Alt Condig扩大参考指数,Dragen Mapper可以有效地映射曲线图基因组,并改善Illumina在这些困难区域中读取的映射。这个新功能有效延长Illumina的读数并在以前无法访问的区域中实现精确映射和变体调用。

  2. 这一成就尤其重要的是,这些难以定位的区域包含193个临床相关基因,如果没有特定的靶向分析和专门的信息学,这些基因的变异就不容易被识别。有了这些最新的改进,DRADEN现在可以在这些基因中产生更好的变体调用准确性从正常的WGS/WES运行,从而导致更好的诊断在临床实验室。亚博下载app

由于其准确性和成本效益,Illumina阅读是迄今为止最广泛使用的测序技术。启用简短读取以解决包含许多临床相关基因的基因组的难以映射区域,提供了进一步加速诊断决策的机会,并继续帮助识别患者的疾病变种。

PrecisionFDA挑战的概述

PrecisionFDA真相挑战赛V2由PrecisionFDA和GIAB联盟与NIST赞助。这项挑战的目的是在一个共同的参考框架上评估小型变异调用管道的性能,重点是在难以绘制的区域、分段重复和主要组织相容性复合体(MHC)中进行基准测试。

瓶中基因组(GIAB)财团最近使用链接和长阅读来发展一套扩展的高可信度的真相呼吁一个特定的三重奏。高质量的长读通常在难以绘制的区域产生更高的置信度调用。有了这种能力,GIAB扩大后的真相集现在已经覆盖了之前真相集之外的7%的基因组,包括许多与医学相关的基因。扩展后的真域在低映射区域和分段重复区域中有超过2.7亿个碱基1

扩展真理集涵盖额外难以映射地区,包括193个临床相关基因。
图1所示。扩展的真理集覆盖了更多难以绘制的区域,包括193个临床相关基因

A)被高置信度真理集覆盖的基因组从85%增加到92%。B) 193个临床相关基因的原真值集和扩展真值集的覆盖率比较。蓝色条形图显示扩展的真值集的覆盖率%。

这些新的真理集是一个新的生物信息学挑战的基础:三个真理集中的两个仍然隐藏着,谁能通过三种不同的测序技术(Oxford Nanopore、PacBio和Illumina),从有限的样本数据中展示出绘制和调用这些困难区域变异的最佳方法。
图2。精密FDA真相挑战V2概述
图2。精密FDA真相挑战V2概述

来源:https://precision.fda.gov/challenges/10

PrecisionFDA挑战结果

Dragen竞争Illumina读取类别,并在三个测试区域中的两个(难以映射地区和所有基准区域)中排名第一。在图3中,条形图显示了SNV和Indel组合的总误差,FP + Fn,在Y轴上以及各种提交导致X轴。与第二次最佳提交相比,在所有基准区域和困难地图区域中,拖拉机提交赢得了舒适的余量,差价约为28%和38%。

图3。PrecisionFDA挑战结果
图3。PrecisionFDA挑战结果

Dragen的提交在三个测试区(难以映射地区和所有基准区域)中获得最佳性能奖励,与其他提交的illumina测序数据有舒适的保证金。

与我们对竞争对手的表现更重要的是与以前版本的拖延版相比,假阳性和假阴性的显着降低。灵感来自这一挑战的创新将错误率降低了近50%(图4)。
图4. HG002精度在扩展真理集(V4.2 VCF和床)中产生
图4. HG002精度在扩展真理集(V4.2 VCF和床)中产生

使用扩展的v.4.2真值集(VCF和BED),与传统DRAGEN相比,DRAGEN graph将SNP错误减少约48%,INDEL错误减少约27%*哈希表

给用户的重要提示

DRAGEN图的总误差减少了50%,可以用扩展的真值集v4.2来衡量。在对较旧的v3.3.2真值集进行基准测试时,这种性能增益并不明显。这部分是因为v3.3.2真值集不包括难以映射的区域,但也因为v4.2真值集纠正了v3.3.2中出现的错误。事实上,当使用旧的真值集v3.3.2时,与传统的DRAGEN相比,DRAGEN图似乎产生了额外的SNP和INDEL假阳性(FP)。然而,很大一部分额外的FP调用是由于v3.3.2 truth VCF不完整造成的。在v4.2 truth VCF中,相同的' FP '变体被标记为真阳性。

为了证明DRAGEN图有效地扩展了Illumina的读取范围,我们将扩展真值V4.2真值集中的DRAGEN准确率与使用DeepVariant调用者的PacBio HiFi长读实现的DRAGEN准确率进行了比较。

PACBIO HIFI读取作为PRECISIONFDA真理挑战v2的一部分提供的2使用PBMM2 V1.3对齐,并使用DeepVariant V1.0.0和WhatShap V1.0进行处理,正如在DeepVariant-PacBio-Match-Case-Charch中所概述的那样3..这个案例研究涉及到-一步调用变量的过程。在第一轮调用后,snv被分阶段和用于单标绘输入BAM。然后,单plotagged BAM再次用作DeepVariant的输入,调用变体,并再次进行分阶段操作。最后阶段2 VCF用于所有比较。

如图5所示,与之前的DRAGEN版本相比,DRAGEN图明显更接近长读的SNP准确率。这两个版本的DRAGEN的INDEL精度都比长读取管道更好。

图5。扩展真值集的精度结果(v4.2 VCF和BED)
图5。扩展真值集的精度结果(v4.2 VCF和BED)

Legacy DRAGEN vs. DRAGEN Graph vs. PacBio+DV

我们在PrecisionFDA真理V2挑战中使用的HG002 / 3/4三重样品中的表现出来,与Dragen Legacy相比,DraveN图降低了近50%的误差总数。接下来,我们表明这些增益不是特定于样本的,并且确实延伸到更多样本和群体。由于其他任意样本没有可用的真相设置,因此我们选择了使用长读取和Illumina读取技术进行测序的样本,并且不用于图表参考。接下来,我们在艰难地图地区收集了拖拉(遗产和图形)与PACBIO + Deepvariant管道之间的一致性。结果表明,当使用DRADREN图表时,SNP和Indel之间的共享呼叫数量增加5-6%。这在图6中示出,在那里我们看到趋势在群体中保留(EUR,AFR,AMR,EA)。这表明,对于阿什妥妥齐的Trio来说,拖拉图精度增益推广到其他祖先的个体,似乎适用于广泛的人口。展望未来,我们计划在大型队列中验证进一步改进。
图6:DRAGEN VCF和PacBio+VCF之间共享调用的百分比,针对不同祖先的16个样本
图6:DRAGEN VCF和PacBio+VCF之间共享调用的百分比,针对不同祖先的16个样本

比较是在难以绘制地图的地区收集的。通过DRAGEN图,SNP和INDEL的一致性提高了~5-6%,并在考虑的所有种群中保持了一致性。

DRAGEN图形:向后兼容性和运行时间

除了大幅减少扩展后的真值集的错误总数外,DRAGEN图的另一个吸引人的地方是它完全兼容标准BAM和VCF文件格式,并与现有的参考基因组完全兼容。要启用DRAGEN图,用户只需要用图哈希表(HT)更新哈希表,这可以通过DRAGEN命令行完成。用这个HT进行映射会产生一个标准的hg38 BAM,图形对齐会自动投影到主组件。目前,DRAGEN图形HT在hg38域可用,但GRCh37域的版本将很快可用。更重要的是,图形功能在运行时没有额外的成本!

图7.覆盖率为35-40x的WGS样品上的DRAGEN运行时间
图7.覆盖率为35-40x的WGS样品上的DRAGEN运行时间

DRAGEN图HT与DRAGEN标准HT的比较。运行时间非常具有可比性,这表明添加图形基因组功能在运行时间上没有成本。

接下来,我们将深入探讨新的DRAGEN映射功能和变体调用改进,这些改进在PrecisionFDA Truth V2挑战赛中获得了成功的精度结果。

DRAGEN创新:支持图形基因组

PrecisionFDA Truth V2挑战聚焦于“难以绘制”的区域,GIAB联盟扩展了他们的基准的主要区域。在这些区域,用短读数据进行精确的变异调用是非常具有挑战性和容易出错的。不出所料,在“难以绘制”区域中进行准确分析的主要障碍是难以准确地将短读图绘制到这些区域中。调用者一个变体分析读取的连环相撞映射到一个给定的轨迹来确定最可能的原始序列的内容,但不能这么做准确如果连环相撞失踪的许多证据读取应该存在,或含有mis-mapped外国读、或校准用最小的映射(MAPQ)的信心。

由于某一区域(如MHC)具有高度多态性,而且样本读取与参考基因组相差太大,以致于作图者无法找到或识别出与之匹配的基因,作图就会出现困难。然而,更常见的情况是,当样本读取与某个区域匹配得相当好,但与其他区域也几乎或正好匹配时,就会出现映射困难。当一个区域的近副本出现在参考基因组的几个地方(节段复制),或在常见的高度重复序列的情况下,就会发生这种情况。

在许多情况下,这种绘图困难可以通过利用种群中已知的变异模式来克服,而不是仅仅利用单个参考基因组。假设一个短读(或读对)匹配两个区域,a和B,同样好但不完美,每个区域与参考基因组有两个核苷酸差异。仅基于引用,映射器只能随机选择a或B,并将其与零MAPQ对齐。但假设我们知道read与A地区的两种差异在人群中普遍存在,而与B地区的两种差异在人群中没有观察到。我们可以使用这些知识作为指南,以相当高的可信度将读数映射到区域a。

图表引用是一种方法,可以触及与已经提出的人口数据映射。在图中,在群体中观察到的替代序列内容被表示为各种发散和融合路径。图8A示出了如何表示几种类型的变化。可以允许示例读取通过参考图与任何最佳匹配的路径对齐。

图8。图的基因组
图8。图的基因组

A)图基因组概述:在图参考中,在群体中观察到的交替序列内容被表示为各种发散和收敛路径。B)多个相alt重叠的例子与片段复制的给定区域重叠。

DRAGEN Mapper,像其他常用的Mapper一样,使用一个线性参考作为基线。但它有两个功能,支持将线性参考扩大到有效的图中,并以一种相同的方式映射读取,即首先将它们对准隐式图,然后将这些对准投影到线性参考路径。

首先,DRAGEN Mapper支持在参考序列中注入群体核苷酸替换,作为多碱基IUPAC-IUB代码。例如,在群体中有时被称为“G”的参考“a”核苷酸可以被编码为“R”。当读数在“R”位置对齐时,读数中的“a”或“G”均为匹配值。这与将读值与等价图结构对齐是相同的行为,一条分叉为“a”和“G”的线性路径,然后立即再次收敛。我们还升级了DRAGEN的种子映射,将匹配参考碱基或备用碱基的种子K-mers填充到映射哈希表中,这样就没有敏感性损失映射到这些位置。

第二,DRAGEN映射器具有高级“alt感知”功能,允许使用“alt contigs”来扩充参考,这些“alt contigs”表示图形中的备用路径,每个路径都具有预定义的提升到线性参考的对齐方式。每当样本读数与其中一个alt contig最佳对齐时,使用liftover知识报告线性参考中投影位置的对齐-具有潜在的高置信度(MAPQ),因为alt contig对齐未被视为与其线性参考投影竞争,而是作为预测路线的指南。同样,这与将读取对齐到等效的图形构造是相同的行为。但在这种情况下,任何图形引用构造理论上都可以表示为一个或多个具有适当liftover的alt contig。

DRAGEN团队利用这两种能力,在难以绘制地图的区域,用观察到的种群小变异来增加hg38。为了应对这一挑战,我们将人群来源限制在来自16个长读(PacBio HiFi)欧洲样本的分阶段变异。我们将分离出来的群体核苷酸替换(SNVs)作为多碱基编码,并将更复杂的群体变异作为添加的alt contigs:插入和删除,复杂的替换,以及小变异的聚簇在单个单倍型上。

图8B显示了1号染色体区域,由于有几个其他的分段副本,该区域很难绘制,如图UCSC浏览器视图底部所示。我们在这个区域上添加了三个alt contigs,图7B底部的粉色轨道,每个轨道都包含少量的阶段性小变体。仅仅这些人口地标就足以引导许多读取到正确的分段复制。

在用种群变异来扩充参考之后,我们的方法的美妙之处在于,mapping操作正常,就好像参考仅仅是hg38。DRAGEN Mapper利用多碱基代码和alt contigs来提高样本读取匹配群体单倍型时的对齐分数,并将最佳对齐投影到线性hg38参考上,用于变体调用。映射到扩展的引用只会产生更精确的hg38 BAM,这在不修改变体调用者的情况下显著提高了变体调用的准确性。

为了验证在德系犹太人三人组中观察到的DRAGEN图精度增益可以推广到其他个体,我们需要找到一种不依赖真集的方法,因为NIST v4.2真集目前仅适用于德系犹太人三人组HG002/3/4。相反,我们从1000个基因组项目的欧洲后裔队列中随机选择了9名参与者,并将对齐后的reads与参考DRAGEN遗产和DRAGEN图进行了比较。我们发现,DRAGEN图大大降低了所有分析样本的碱基替换率(对齐的读碱基与相应参考序列之间的不匹配率)(图9)。左侧为aligned reads与GRCh38的碱基替换率,右侧为DRAGEN_GRCh38_graph。9个个体中没有一个被用于构建图表参考。计算了分阶段单倍型(约110Mb)跨越GRCh38部分的碱基置换率。基本替换率的降低表明读取映射得到了改进,这可以提高变体调用的准确性。这一结果表明,DRAGEN图的增益扩展到了其他个体。

图9.样品中不匹配率的改进
图9.样品中不匹配率的改进

传统GRCH38哈希表和“拖动_GRCH38_Graph”之间的比较,它使用HG38哈希表与Pop Alt Contig一起增强。

我们还观察到DRAGEN图可以纠正参考偏差。图10显示了利用DRAGEN遗产和DRAGEN图获得的VCF的杂合子变异调用的变异等位基因频率(VAF)分布,并与低映射性床相交。在低可映射性区域,基于图的分布更接近于理论上的预期(即图的VAF分布更集中,在0.5左右更对称)。

人们可以推测,该图使VAF分布倾斜得更高,因为alt重叠群在将包含给定位置alt等位基因的读数拉入正确的堆中时比拉入支持ref的读数时表现得更强烈。但是由于现在的分布更集中在50%左右,alt重叠群的偏颇行为实际上是一种纠正。当然,,在没有alt contigs的情况下在一个难以定位的位点上,支持alt等位基因的读本更有可能从堆积中丢失,或者有非常低的MAPQ。因此,我们假设alt contigs在这方面的主要影响是减轻参考偏差,从而纠正VAF分布。

图10.传统与图形映射模式下的变异等位基因频率分布(VAF)
图10.传统与图形映射模式下的变异等位基因频率分布(VAF)

图模式校正了参考偏差,并使VAF均值、中值和偏度统计值更接近预测值。

龙腾创新:重叠变体的联合检测

为了获得额外的准确性,我们在小变量调用中解决了一个更容易实现的目标。传统变异呼叫者的基因分型计算被设计为在基因分型事件发生时只考虑一个单一的基因座。在事件分离和独立的情况下,这种方法执行得很好,但不能准确地调用重叠事件(SNP和INDELs之间),或由短串联重复(STR)区域分隔的事件。我们假设我们可以通过将附近的位点合并到一个区域和对单倍型进行基因分型而不是对事件进行基因分型来提高变异呼叫的准确性。

我们确定地区进行联合检测(JD)的多个变体使用以下标准:在多个位点基因座等位基因相互重叠,位点STR地区或少于10基地远离一个STR地区,或位点不到10基地远离对方。STR区域是联合检测的良好候选区域,因为1)这是pcr诱导的INDEL错误发生的地方,它可能与真变异型SNP重叠,2)这也是真INDEL变异发生的地方,它可能相互重叠或与SNP重叠,3)在一些情况下,一个纯合子INDEL有一半的读值不对齐,以表示INDEL在均聚物的末端,而不是在其真正的位置(例如,均聚物的开始或中间)。JD在所有这些情况下都能有效地恢复真正的变体。

然后,我们修改变量呼叫者算法以生成完整的单倍型列表,其中表示JD区域内的等位基因的所有可能组合。然后,在基因分型步骤期间,我们计算给出所观察到的读取堆的每个单倍型对的可能性。最后,使用单倍型与等位基因映射,我们计算出事件成对的基因型后验概率,并以最大后概率报告基因型。

我们发现,这导致假阴性显著减少,尤其是INDELs (图11)。JD帮助救援先前未被发现的呼叫(由于过低的置信度评分),并且还有助于校正基因型错误(例如,将杂合呼叫转换为纯合子呼叫),这两者都提高了灵敏度。JD尤其优惠indels的原因是因为它解决了涉及indel(Indel重叠SnP,str区域Indel Indel)的情况,以前没有通过事件的简单列明的基因分型适当地处理。

图11。重叠变异体联合检测(JD)的错误率Delta
图11。重叠变异体联合检测(JD)的错误率Delta
  • 具有JD的FP + FN的显着改进,ESP。适用于indels。敏感性。
  • 柱状图显示了有JD和没有JD时DRAGEN v.3.6和v.3.7的比较。

DRAGEN graph显著减少扩展真值集中的总错误数

图12显示,使用传统的管道(DRADEN 3.6和BWA-MEM),当从先前的真相(V.3.3.2)转换为扩展真实集(V.4.1)时,误差总数显着增加。总误差的增加是由于在传统短读管道不容易访问的区域中添加了延长的真理集中的变体FN。通过DRADREN图(显示为DRADREN 3.7),误差FP + FN的总数显着降低。

图12。DRAGEN图的改进和扩展真值集的总错误计数的减少
图12。DRAGEN图的改进和扩展真值集的总错误计数的减少

b) indel fp + fn

结果总结和结果适用性超越PrecisionFDA的挑战

这个挑战为参与者提供了一个机会,当然也为Illumina的DRAGEN团队提供了一个机会,专注于新的创新领域,其成果将在接下来的几次发布中出现DRAGEN从2020年10月26日发布的DRAGEN 3.7开始。我们将这项挑战中使用的方法视为DRAGEN主要新能力的开始,将得到改进和推广,包括结构变体、复制数量变体和重复扩展。DRAGEN Graph可以在其参考中代表多个祖先的单倍型,提高了全面的准确性,并减轻了线性参考的偏差。这些能力已经表明,即使有2x150长的读取对,我们现在可以调用变体,比想象中更难绘制的区域更准确。有了这方面的经验,我们将不懈努力,在余下的地区完善和扩展分析。