跳到内容

高质量单核苷酸变异呼叫的基因组区域鉴定

Mitchell A. Bekritsky, Camilla Colombo,和Michael A. Eberle

分享这篇文章

介绍

随着越来越多的实验室将全基因组测序作为临床试验来实施,准确量化端到端测序管道的性能变得越来越重要。一种选择是获取参考资料并对其排序,并使用它们根据相关的真实数据测量变量调用性能1-3.这使得实验室能够准确地测量大部分(80 - 90%)基因组的召回率和精确度。然而,这些参考材料存在于少数民族同质样本,并不能一定预测未来样本的全基因组性能。一种互补的方法是开发一种预测方法,估计任何样本的测序性能。

变异呼叫可以同时受到随机和系统变异性的影响。对于小变异,如单核苷酸变异(SNVs)和短索引,随机变异性对大多数基因组中测序≥30倍覆盖的变异调用性能的影响非常小。然而,基因组区域系统地受到低质量的影响——例如高错误率、低作图质量或深度异常——可能无法提供一致准确的变异调用,即使是snv和indels。许多引起这些系统误差的参考特征是众所周知的,例如,高度重复的区域测绘质量差,均聚物导致低基精度。这一知识已被用于将基因组划分为“容易”和“困难”区域4.尽管这些分类可能是有帮助的,但它们并不能完美地反映这些区域内的实际表现。例如,一个大的段复制可能由高相似度和低相似度的区域组成,导致非常不同的变异呼叫精度。对这些通用分类方法的改进是使用实际的排序数据来经验地识别高变体和低变体调用性能的区域。

在这里,我们分析了在平均深度为>50x的29个样本中收集的与数据质量相关的几个测序措施。综合起来,我们有平均1450个reads,覆盖了基因组中的每个碱基,使我们能够以基本水平的分辨率识别始终高质量的区域,并将每个位置标注为具有经验上的高或低系统质量。然后,我们表明,这些注释具有高度的SNV预测性能,以成对SNV一致性衡量。这些经验衍生的注释使我们能够改进常用的基于参考的分类方法。例如,我们标注为高可信度的区域,在一个瓶中基因组(GIAB)困难区域,在技术重复中具有高SNV一致性(Jaccard指数= 98.8%)。相反,我们标注为低置信度的区域,不包括在GIAB困难区域,具有低SNV一致性(Jaccard指数= 79.9%)。我们的结果表明,通过聚合来自许多样本的序列数据,我们可以确定基因组的区域,其中小变异呼叫具有系统的高质量。

方法

为了建立我们的数据库,我们选择了包含在1000个基因组项目中的29个样本科里尔生物银行研究所5. 这些样本代表了一系列不同的种族(11个非洲、9个东亚和9个欧洲样本)。每个样本的DNA都是使用特鲁塞克™ 无PCR样品制备试剂盒然后用配对的150bp测序NovaSeq™6000仪器与Xp工作流平均深度为51倍。

序列序列与GRCh38与诱骗染色体进行比对,但没有使用交替的contigsDragen™v3.4.5. 由于我们有29个样本,我们预计基因组中每个位置大约有1450个读数。我们从基因组中每个位置的所有样本的比对文件(BAM或CRAM)中收集了几个指标,包括:

  • 标准化深度:对于每个样本,归一化深度计算为每个位置的中位常染色体覆盖归一化的覆盖深度,值为1即为中位常染色体覆盖深度。归一化深度将在所有样本中平均,以获得最终队列深度。
  • 意思是映射质量:重叠基因组位置的所有样本的所有对齐读取的平均图谱质量。
  • % Q20 basecalls:phred评分超过20分的所有样本在基因组位置的基线呼叫百分比,对应的错误率≤1%。

在这个分析中,我们使用一致性来衡量SNV的表现,正如使用Jaccard指数计算的那样:

A和B是来自两个变体调用文件(vcf)的两组变体调用,通常来自同一样本的副本。在分子上,A和B的交集定义为两个vcf中具有相同基因型的所有变异调用。在分母中,A和B的并集被定义为任意VCF中存在的所有变量调用。这些变体调用集的Jaccard索引是来自这些集合的调用的交集除以它们调用的并集。

与地面真实资源相比,一些可重复的变体可能是由于系统错误,但结果仍然是高度信息的一般绩效评估。在我们所有的分析中,我们显示了NA12878的30个随机组合技术重复的平均Jaccard指数。每个班级报告的一致性值和变异数是所有30个重复的平均值。

在计算常染色体范围的表现时,我们排除了参考基因组中的Ns和缺口。

结果

汇总的数据提供了显著的能力,以检测可能无法在单个测序实验中检测到的系统误差趋势。考虑一个具有30倍常染色体中位数覆盖的基因组中有40个reads的位点。如果我们假设泊松分布为30倍,那么这种情况将会发生,因为每1000个独立点中大约有14个点进行泊松抽样。因此,很难确定观察到的较高覆盖率是随机的还是系统的。相反地,当在30个30倍覆盖的人群中观察同一地点时,如果每一个人现场的覆盖率为40倍,我们可以非常确定(p=2e-56),现场的覆盖率变化不是由随机过程驱动的。通过聚合从许多样本中获得的高深度数据,我们可以识别最有可能导致变体调用性能差的系统异常。在来自不同种族背景的大量样本中,常见突变和等位基因特异性伪影是可以识别的,如果它们足够罕见,那么它们对汇总汇总指标的影响将是有限的。

通过度量性能对基因组进行分层

按照方法中列出的过程,我们收集了三个性能指标(图1)。

图1:在聚合的测序数据上对整个基因组进行组合的系统比对度量。米制箱子是半开的。代表高系统质量的箱子用蓝色阴影表示,而代表低系统质量的箱子用红色阴影表示。本文中的所有数字都保持这一点。如文中所述,我们将区域定义为具有高系统质量的区域≥90%Q20,平均映射质量≥平均标准化深度在目标覆盖范围的25%以内。

大多数(> 88%)的常染色体base-calling高品质,自信地对齐参考基因组,并在每个样本的目标二倍体覆盖率(表1)。这一分析,我们高质量系统的区域定义为那些Q20≥90%,意味着映射质量≥50岁和深度覆盖范围在25%以内的目标。使用这些定义,我们可以得到以下常染色体的分解,不包括间隙:

表1:每个系统质量仓中非n常染色体的百分比。蓝色圆圈表示某一特定度量的高系统质量,而红色圆圈表示低系统质量。

这些指标的变化可能会影响小变量调用性能,但是,为了准确地度量性能,我们不应该仅仅依赖于truthsets1-3因为他们可能不太全面系统的质量较低的地区(图2)。和谐是95.7%通过SNVs autosome-wide但更高(99.8%)~ 88%的高质量的基因组,这意味着SNV要求非常精确的在绝大多数已知的基因组。根据这项分析,系统质量低的区域只占基因组的12%,而且表现明显更差。当任何一个指标都有系统质量差的证据时,平均一致性下降到66.7%,当所有指标都有系统质量差时,一致性为46.8%(图3)。

图2:在系统质量较低的地区,truthset的可评估snv很少。铂基因组v2017.1 truthset给出了每箱评估snv的百分比

图3:系统质量较低的基因组区域的一致性较差。在每个bin中,在其他两个指标具有高系统质量的站点报告一致性,突出每个指标的低系统质量的影响。

比较经验的系统质量的基因组在一个瓶子困难的地区

虽然基因组的参考特征会对变异呼叫性能产生负面影响,但这些区域的变异呼叫准确度尚未明确定义。排除仅基于参考特性的变体可以消除许多高质量的变体调用。例如,瓶子中的基因组定义了几类基因基因组的困难区域,包括低映射能力、片段重复、长串联重复和GC含量极高的区域(4).在这些类别中,18% - 73%的这些困难区域在本分析中被标记为高系统质量(表2)。在我们的分析中,约618k snv属于“困难”类别,被确定为具有高系统质量的snv,一致性为98.8%。此外,根据我们的分析,在GIAB定义的系统质量较低的困难区域之外的约118k snv中,一致性为79.9%。综上所述,这些结果表明,之前描述的困难区域过于广泛,使用经验系统质量可以更好地预测种系变异呼叫性能。

表2:GIAB困难区域对变异呼叫性能的预测较差。

比较经验系统质量与真实集置信区域

Truthset置信区域特征应该产生与系统质量分类产生的高置信变量调用相似但不相同的区域。此外,即使对于相同的样本,这些真理集的置信区域也会随着时间的推移而演化。为了检验这一点,我们根据不同的truthset置信区域与我们经验定义的置信区域的重叠,比较了不同truthset置信区域的表现(表3)。特别重要的是,既在truthset置信区域内又具有高系统质量的站点具有一致的高一致性(>99.9%)。同样,不包含在truthset置信区域内的系统质量较差的站点具有非常差的一致性。

表3:与系统质量高的地区相比,真实数据集的SNV一致性

在本次分析中,共鉴定出65k ~ 450k的snv在研究的truthsets中不存在,一致性范围为~91% ~ >98%,表明这些站点总体上是高质量的。这些观察结果与这样一个事实相一致,即这种分析是相当初级的——随着我们的方法的发展,我们期望在高系统质量的站点一致性方面有进一步的改进。

这些观察得出了两个进一步的结论。首先,考虑到此处考虑的垃圾箱的粗糙度,通过更复杂的分析,这些truthset特定变体的某些比例可能最终被归类为具有高系统质量。剩下的12%基因组的某些子集能够产生变异调用,需要正交验证才能被视为高置信度。这正是truthset所提供的——无论是通过使用谱系一致性、正交平台和管道,还是手动整理,这些额外的证据都能在基因组中更困难的区域实现高质量的调用。

讨论

为了成功推动基因组数据临床应用的改进,全面了解我们的表现至关重要,不仅是在广泛的基因组范围内,而且是在高度局部范围内。通过收集大量人群的全基因组数据,我们可以开始获得关于我们在任何感兴趣区域的表现的详细信息。当我们看到对重要基因的特定影响时,这些信息使我们能够与专门的呼叫者合作,利用NGS中可用的信息来提供临床可操作的结果,如Illumina的定制呼叫者中所示SMACYP2D66、7.通过分解小的变量调用性能,我们可以越来越清楚地了解系统错误是如何影响特定于应用程序的性能的。这表明,未来的应用将使我们能够了解我们今天在哪里提供可靠的临床结果,并规划出我们下一步需要集中精力改进我们的临床基因组。

这里给出的结果表明,有可能开发一套通用的置信区域,集中于预测变体调用性能的特性。我们证明,在高系统质量的区域内,通过成对复制一致性评估snv的性能是异常高的。重要的是,由于系统质量高的区域是在相对于评估集的单独样本上定义的,这些结果很可能适用于任何测序基因组。目前,这项工作确认了SNV呼叫在>88%的常染色体有~99.8%的复制率,这表明在这部分基因组中几乎不需要正交验证。继续的工作正在进行,以更好地识别覆盖更大比例基因组的高可信度区域。此外,这项工作集中在SNV一致性,但这些相同的方法可以扩展到更复杂的变异类型,以及体细胞变异调用。

参考文献
  1. 埃伯勒·马,弗里茨拉斯·E,等。一个参考数据集540万分阶段的人类变异体经基因遗传验证从测序一个三代17人家系。基因组研究》2017;27(1):157 - 164。doi: 10.1101 / gr.210500.116
  2. 瓦格纳J,奥尔森ND,等。具有链接和长读取的挑战性小变体的基准测试。bioRxiv。2020年,212712年。doi: 10.1101 / 2020.07.24.212712
  3. Zook JM、McDaniel J等。一个开放资源,用于精确地对小变量和引用调用进行基准测试。生物科技Nat》。2019;37:561 - 566。doi: 10.1038 / s41587 - 019 - 0074 - 6
  4. 李志刚,李志刚,等。对人类基因组中种系小变异呼叫进行基准化的最佳实践。纳特生物技术公司。2019;37:555-560. 内政部:10.1038/s41587-019-0054-x
  5. 王志强,王志强,等。国际基因组样本资源(IGSR):包含1000个基因组项目数据的全球基因组变异集合。核酸Res. 2017;45(D1):D854-D859。doi: 10.1093 / nar / gkw829
  6. 陈晓东,陈志强,陈志强,等。脊髓性肌肉萎缩的诊断和基因组测序数据的载体筛选。麝猫医学。2020;22:945 - 953。doi: 10.1038 / s41436 - 020 - 0754 - 0
  7. 陈X,沈F,等。Cyrius:利用全基因组测序数据进行准确的CYP2D6基因分型。药物基因组学杂志2021;21:251-261. 内政部:10.1038/s41397-020-00205-5