跳到内容

用高质量的单核苷酸变体识别基因组区域

Mitchell A.Bekritsky和Michael A.Eberle

分享这篇文章

介绍

随着越来越多的实验室将全基因组测序作为临床试验来实施,准确量化端到端测序管道的性能变得越来越重要。一种选择是获取参考资料并对其排序,并使用它们根据相关的真实数据测量变量调用性能1-3. 这使得实验室能够准确地测量大部分(80-90%)基因组的召回率和精确度。然而,这些参考资料只适用于少数民族同质样本,不一定能预测未来样本的全基因组表现。一种补充方法是开发一种预测方法,用于估计任何样本的测序性能。

变异呼叫可以同时受到随机和系统变异性的影响。对于小变异,如单核苷酸变异(SNVs)和短索引,随机变异性对大多数基因组中测序≥30倍覆盖的变异调用性能的影响非常小。然而,基因组区域系统地受到低质量的影响——例如高错误率、低作图质量或深度异常——可能无法提供一致准确的变异调用,即使是snv和indels。许多引起这些系统误差的参考特征是众所周知的,例如,高度重复的区域测绘质量差,均聚物导致低基精度。这一知识已被用于将基因组划分为“容易”和“困难”区域4.. 尽管这些分类可能会有所帮助,但它们并不能完美地反映这些地区的实际表现。例如,一个大的片段复制可能由高相似度和低相似度区域组成,从而导致非常不同的变体调用精度。与这些通用分类方法相比的一个改进是使用实际的序列数据来经验性地确定变量调用性能高和低的区域。

在这里,我们分析了与29个样本收集的数据质量相关的几种测序方法,这些样本的平均深度大于50倍。结合起来,我们平均有1450次读取,覆盖了基因组中的每个碱基,这使我们能够以碱基级分辨率识别一致的高质量区域,并将每个位置注释为具有经验性的高或低系统质量。然后,我们通过成对SNV一致性的测量表明,这些注释高度预测SNV性能。这些经验推导的注释允许我们改进常用的基于参考的分类方法。例如,我们注释为“瓶中基因组”(GIAB)困难区域内的高置信度区域在技术复制中具有高SNV一致性(Jaccard指数=98.8%)。相反,我们注释为不包括在GIAB困难区域的低置信度区域的SNV一致性较低(Jaccard指数=79.9%)。我们的结果表明,通过聚合来自许多样本的序列数据,我们可以识别基因组中小变异呼叫具有系统高质量的区域。

方法

为了建立我们的数据库,我们选择了1000基因组项目中的29个样本,并从科里尔生物银行研究所5.. 这些样本代表了一系列不同的种族(11个非洲、9个东亚和9个欧洲样本)。每个样本的DNA都是使用特鲁塞克™ 无PCR样品制备试剂盒然后用配对的150bp测序诺瓦塞克™ 6000仪表Xp工作流平均深度为51倍。

序列读取与带有诱饵染色体的GRCh38对齐,但使用Dragen™v3.4.5. 由于我们有29个样本,我们预计基因组中每个位置大约有1450个读数。我们从基因组中每个位置的所有样本的比对文件(BAM或CRAM)中收集了几个指标,包括:

  • 标准化深度:对于每个样本,标准化深度计算为每个位置的覆盖率通过常染色体覆盖率中位数标准化,因此值1对应于常染色体覆盖深度中位数。标准化深度是我们最终队列深度的所有样本的平均值。
  • 平均映射质量:覆盖基因组位置的所有样本的所有对齐读取的平均映射质量。
  • %问题20:基本呼叫:与错误率相对应的Phred量表质量分数超过20的所有样本中基因组位置的碱基调用百分比≤1%.

在本分析中,我们使用一致性来衡量SNV绩效,如使用Jaccard指数计算的:

A和B是来自两个变体调用文件(vcf)的两组变体调用,通常来自同一样本的副本。在分子上,A和B的交集定义为两个vcf中具有相同基因型的所有变异调用。在分母中,A和B的并集被定义为任意VCF中存在的所有变量调用。这些变体调用集的Jaccard索引是来自这些集合的调用的交集除以它们调用的并集。

与地面真相资源相比,一些可重复的变体可能是由于系统误差造成的,但结果对于一般性能评估仍然具有高度的信息性。对于我们所有的分析,我们展示了30个随机组合的NA12878技术复制品的平均Jaccard指数。报告的每个类别的一致性值和变异数是所有30个重复的平均值。

在计算常染色体范围的表现时,我们排除了参考基因组中的Ns和缺口。

结果

聚合数据提供了检测单个测序实验中可能无法检测到的系统误差趋势的强大能力。考虑一个站点,在基因组中有40个读,30X中位数常染色体覆盖。如果我们假设泊松分布为30倍,这将由于在每1000个独立站点中的大约14个站点进行泊松采样而发生。因此,很难确定观察到的较高覆盖率是随机的还是系统的。相反,当在30个个体中观察同一地点,覆盖率为30倍时,如果每个人在现场的覆盖率为40倍,我们可以非常确定(p=2e-56)该位点的覆盖率变化不是由随机过程驱动的。聚合从许多样本中获得的高深度数据,使我们能够识别最有可能导致不良变异呼叫性能的系统异常。在来自不同种族背景的大量样本中,常见突变和等位基因特异性artIFACT是可识别的,如果它们足够罕见,那么它们对汇总汇总指标的影响将是有限的。

通过度量性能对基因组进行分层

按照方法中概述的过程,我们收集了三个性能指标(图1)。

图1:在聚合测序数据上对整个基因组进行分箱系统比对度量。度量箱是半开放的。代表高系统质量的箱用蓝色阴影表示,而代表低系统质量的箱用红色阴影表示。这在整篇文章的所有图中都是保持的。如文中所述,我们将区域定义为h具有较高的系统质量≥90%Q20,平均映射质量≥平均标准化深度在目标覆盖范围的25%以内。

大多数常染色体(>88%)具有较高的碱基调用质量,与参考基因组完全一致,并且接近每个样本的目标二倍体覆盖率(表1)。对于该分析,我们将系统质量高的区域定义为≥90%Q20,平均映射质量≥ 50,深度范围在目标覆盖范围的25%以内。使用这些定义,我们得到了常染色体的以下细分,不包括间隙:

表1:每个系统质量仓中非n常染色体的百分比。蓝色圆圈表示某一特定度量的高系统质量,而红色圆圈表示低系统质量。

这些指标的变化可能会影响小变量调用性能,但是,为了准确地度量性能,我们不应该仅仅依赖于truthsets1-3因为在系统质量较低的区域,它们可能不够全面(图2)。所有通过SNV的常染色体宽度的一致性为95.7%,但在~88%的高质量基因组中更高(99.8%),这意味着SNV调用在绝大多数已知基因组中非常准确。基于这一分析,系统质量较低的区域仅占基因组的12%,其表现明显较差。当任何单个指标有证据表明系统质量较差时,平均一致性下降到66.7%,当所有指标的系统质量较差时,一致性为46.8%(图3)。

图2:Truthsets在系统质量较低的地区几乎没有可评估的SNV。针对铂族基因组v2017.1 truthset,给出了每个bin评估SNV的百分比

图3:对于系统质量较低的基因组区域,一致性较差。在每个bin中,在其他两个指标具有较高系统质量的位置报告一致性,突出了系统质量较低对每个指标的影响。

比较经验的系统质量的基因组在一个瓶子困难的地区

虽然基因组的参考特征会对变异呼叫性能产生负面影响,但这些区域的变异呼叫准确度尚未明确定义。排除仅基于参考特性的变体可以消除许多高质量的变体调用。例如,瓶子中的基因组定义了几类基因基因组的困难区域,包括低映射能力、片段重复、长串联重复和GC含量极高的区域(4.).在这些类别中,18%–73%的困难区域在本分析中被标记为高系统质量(表2)。在我们的分析中,属于“困难”类别的~618k SNV的一致性为98.8%,这些SNV被确定为具有较高的系统质量。此外,根据我们的分析,在GIAB定义的系统质量较低的困难区域之外的约118k SNV中,一致性为79.9%。综合起来,这些结果表明,先前描述的困难区域过于广泛,使用经验系统质量可以更好地预测种系变异呼叫性能。

表2:GIAB困难区域对变异呼叫性能的预测较差。

比较经验系统质量与真实集置信区域

Truthset置信区域特征应该产生与系统质量分类产生的高置信变量调用相似但不相同的区域。此外,即使对于相同的样本,这些真理集的置信区域也会随着时间的推移而演化。为了检验这一点,我们根据不同的truthset置信区域与我们经验定义的置信区域的重叠,比较了不同truthset置信区域的表现(表3)。特别重要的是,既在truthset置信区域内又具有高系统质量的站点具有一致的高一致性(>99.9%)。同样,不包含在truthset置信区域内的系统质量较差的站点具有非常差的一致性。

表3:与系统质量高的地区相比,真实数据集的SNV一致性

在该分析中,确定了65k至450k SNV,这些SNV不存在于所研究的真实数据集中,一致性范围在~91%至>98%之间,表明这些位点通常质量较高。这些观察结果与这一事实相一致,即该分析是相当基本的——我们期望随着我们的方法的发展,具有高系统质量的站点的一致性会进一步提高。

这些观察结果导致了两个进一步的结论。首先,考虑到此处考虑的箱子的粗糙度,通过更复杂的分析,这些truthset特异性变体的某些部分可能最终被归类为具有高系统质量。剩下的12%基因组的一些子集能够产生需要正交验证的变异调用被认为是高置信度的。这正是truthset所提供的——无论是通过使用系谱一致性、正交平台和管道,还是通过手动管理,这些额外的证据都可以在基因组中更困难的区域实现高质量调用。

讨论

为了成功推动基因组数据临床应用的改进,全面了解我们的表现至关重要,不仅是在广泛的基因组范围内,而且是在高度局部范围内。通过收集大量人群的全基因组数据,我们可以开始获得关于我们在任何感兴趣区域的表现的详细信息。当我们看到对重要基因的特定影响时,这些信息使我们能够与专门的呼叫者合作,利用NGS中可用的信息来提供临床可操作的结果,如Illumina的定制呼叫者中所示SMACYP2D66,7.通过分解小的变量调用性能,我们可以越来越清楚地了解系统错误是如何影响特定于应用程序的性能的。这表明,未来的应用将使我们能够了解我们今天在哪里提供可靠的临床结果,并规划出我们下一步需要集中精力改进我们的临床基因组。

这里给出的结果表明,有可能开发一组通用的置信区域,这些区域集中于预测变量调用性能的特征。我们证明,在高系统质量区域内,通过成对复制一致性评估的SNV表现异常高。重要的是,由于高系统质量的区域是在相对于评估集的单独样本上定义的,因此这些结果可能在任何已测序的基因组中推广。目前,这项研究发现,超过88%的常染色体中的SNV调用具有约99.8%的复制率,这表明在这部分基因组中几乎不需要进行正交验证。为了更好地识别覆盖基因组更大百分比的高置信区域,我们正在继续开展工作。此外,这项工作集中于SNV一致性,但这些相同的方法可以扩展到更复杂的变体类型,以及体细胞变体调用。

参考文献
  1. 埃伯勒·马,弗里茨拉斯·E,等。一个参考数据集,由540万个阶段性人类变体组成,通过对一个三代17人系谱进行测序的遗传遗传验证。基因组研究2017;27(1):157-164. 内政部:10.1101/gr.210500.116
  2. 瓦格纳J,奥尔森ND,等。具有链接和长读取的挑战性小变体的基准测试。bioRxiv。2020年,212712年。doi: 10.1101 / 2020.07.24.212712
  3. Zook JM、McDaniel J等。一个开放资源,用于精确地对小变量和引用调用进行基准测试。生物科技Nat》。2019;37:561 - 566。doi: 10.1038 / s41587 - 019 - 0074 - 6
  4. Krusche P、Trigg L等。人类基因组中细菌小变种调用基准的最佳实践。纳特生物技术公司。2019;37:555-560. 内政部:10.1038/s41587-019-0054-x
  5. 王志强,王志强,等。国际基因组样本资源(IGSR):包含1000个基因组项目数据的全球基因组变异集合。核酸Res. 2017;45(D1):D854-D859。doi: 10.1093 / nar / gkw829
  6. 陈X,Sanchis Juan A,等。从基因组测序数据中诊断脊髓性肌萎缩症和筛查携带者。麝猫医学。2020;22:945 - 953。doi: 10.1038 / s41436 - 020 - 0754 - 0
  7. 陈X,沈F,等。Cyrius:利用全基因组测序数据进行准确的CYP2D6基因分型。药物基因组学杂志,2021;21:251-261.doi:10.1038/s41397-020-00205-5