跳转到内容

高质量单核苷酸变异呼叫的基因组区域鉴定

Mitchell A. Bekritsky,Camilla Colombo和Michael A. Eberle

分享此文章

介绍

随着越来越多的实验室将全基因组测序作为临床试验,准确量化端到端测序管线的性能变得越来越重要。一种选择是获取并排序参考材料,并使用它们根据相关的真实数据度量变量调用性能1-3.这使得实验室能够准确地测量大部分(80 - 90%)基因组的召回率和精确度。然而,这些参考材料存在于少数民族同质样本,并不能一定预测未来样本的全基因组性能。一种互补的方法是开发一种预测方法,估计任何样本的测序性能。

变体呼叫可能会受到随机和系统的可变性的影响。对于诸如单核苷酸变体(SNV)和短凹凸等的小变体,随机变异性对变体呼叫性能的影响非常少,在大多数基因组中测序≥30倍的覆盖率。然而,通过较低质量的基因组区域 - 例如升高的误差速率,低映射质量或深度异常 - 即使对于SNV和Indels也可能无法提供一致的准确变体调用。引起这些系统误差的许多参考特性是众所周知的 - 例如,高重复的区域具有较差的映射质量,并且已知均聚物导致基本精度低。这种知识已被用来将基因组分类为“容易”和“困难”的地区4.尽管这些分类可能是有帮助的,但它们并不能完美地反映这些区域内的实际表现。例如,一个大的段复制可能由高相似度和低相似度的区域组成,导致非常不同的变异呼叫精度。对这些通用分类方法的改进是使用实际的排序数据来经验地识别高变体和低变体调用性能的区域。

在这里,我们分析了在平均深度为>50x的29个样本中收集的与数据质量相关的几个测序措施。综合起来,我们有平均1450个reads,覆盖了基因组中的每个碱基,使我们能够以基本水平的分辨率识别始终高质量的区域,并将每个位置标注为具有经验上的高或低系统质量。然后,我们表明,这些注释具有高度的SNV预测性能,以成对SNV一致性衡量。这些经验衍生的注释使我们能够改进常用的基于参考的分类方法。例如,我们标注为高可信度的区域,在一个瓶中基因组(GIAB)困难区域,在技术重复中具有高SNV一致性(Jaccard指数= 98.8%)。相反,我们标注为低置信度的区域,不包括在GIAB困难区域,具有低SNV一致性(Jaccard指数= 79.9%)。我们的结果表明,通过聚合来自许多样本的序列数据,我们可以确定基因组的区域,其中小变异呼叫具有系统的高质量。

方法

要构建我们的数据库,我们选择了1000个基因组项目中包含的29个样本,并从中获得柯瑞尔研究所生物5.这些样本代表了一系列不同的种族(11个非洲人,9个东亚人和9个欧洲人)。每个样本的DNA都是用TruSeq™无pcr样品准备试剂盒然后用配对末端150bp的读数在Novaseq™6000仪器Xp的工作流平均深度为51倍。

序列序列与GRCh38与诱骗染色体进行比对,但未使用交替的contigs德拉根™ v3.4.5.由于我们有29个样本,我们预计每个基因组位置大约有1450个读取。我们从基因组中每个位置的所有样本的比对文件(BAMs或CRAMs)中收集了一些指标,包括:

  • 归一化深度:对于每个样本,归一化深度计算为每个位置的中位常染色体覆盖归一化的覆盖深度,值为1即为中位常染色体覆盖深度。归一化深度将在所有样本中平均,以获得最终队列深度。
  • 平均映射质量:在所有对齐的平均映射质量读取所有重叠基因组位置的样本。
  • % Q20 basecalls:与错误率相对应的Phred量表质量分数超过20的所有样本中基因组位置的碱基调用百分比≤1%.

我们使用jaccard索引计算,测量此分析中的SNV性能:

A和B是来自两个变量调用文件(VCF)的两组变量调用,通常来自相同样本的副本。在分子中,A和B的交叉点被定义为两个具有相同基因型的VCF中存在的所有变体调用。在分母中,A和B的并集定义为任一VCF中存在的所有变量调用。这些变量调用集的Jaccard索引是来自这些集合的调用的交集除以它们的调用的并集。

与地面真理资源相比,某些可重复的变体可能是由于系统错误,但结果仍然具有高度贸易信息,对一般性绩效评估仍然具有丰富的信息。对于我们所有的分析,我们显示了在30个随机组合的NA12878随机组合的技术复制方面平均的Jaccard指数。报告的每个类中的协调值和变体的数量是所有30重复的平均值。

在计算常染色体范围的性能时,我们排除了参考基因组中的Ns和缺口。

后果

汇总的数据提供了显著的能力,以检测可能无法在单个测序实验中检测到的系统误差趋势。考虑一个具有30倍常染色体中位数覆盖的基因组中有40个reads的位点。如果我们假设泊松分布为30倍,那么这种情况将会发生,因为每1000个独立点中大约有14个点进行泊松抽样。因此,很难确定观察到的较高覆盖率是随机的还是系统的。相反地,当在30个30倍覆盖的人群中观察同一地点时,如果每个人该地点的覆盖率正好是40倍,我们可以非常确定(p=2e-56),该地点的覆盖率变化不是由随机过程驱动的。通过聚合从许多样本中获得的深度数据,我们可以识别最有可能导致较差的变型调用性能的系统异常。在一组来自不同种族背景的大样本中,常见的突变和等位基因特异性的人为因素是可以识别的,如果它们足够罕见,那么它们对汇总的汇总指标的影响将是有限的。

通过度量性能分层基因组

按照方法中概述的程序,我们收集了三个性能指标(图1)。

图1:在聚合测序数据上对整个基因组进行Binned系统比对。米制垃圾桶半开着。表示高系统质量的箱子用蓝色阴影表示,而表示低系统质量的箱子用红色阴影表示。本文中所有的图都保持了这一点。如本文所述,我们将Q20≥90%、平均映射质量≥50、平均归一化深度在目标覆盖范围的25%以内的区域定义为具有高系统质量的区域。

大多数(> 88%)的常染色体base-calling高品质,自信地对齐参考基因组,并在每个样本的目标二倍体覆盖率(表1)。这一分析,我们高质量系统的区域定义为那些Q20≥90%,意味着映射质量≥50岁和深度覆盖范围在25%以内的目标。使用这些定义,我们可以得到以下常染色体的分解,不包括间隙:

表1:非n自动体的百分比落入每个系统质量箱。蓝色圆圈表示特定度量的高系统质量,而红色圆圈则表示低系统质量。

这些指标的变化可能会影响小的变量调用性能,然而,要准确地衡量性能,我们不应该仅仅依赖于truthset1-3因为在系统质量较低的区域,它们可能不够全面(图2)。所有通过SNV的常染色体宽度的一致性为95.7%,但在~88%的高质量基因组中更高(99.8%),这意味着SNV调用在绝大多数已知基因组中非常准确。基于这一分析,系统质量较低的区域仅占基因组的12%,其表现明显较差。当任何单个指标有证据表明系统质量较差时,平均一致性下降到66.7%,当所有指标的系统质量较差时,一致性为46.8%(图3)。

图2:真实性在具有较低系统质量的区域中具有很少的评估SNV。对于铂族基因组V2017.1真实性,给出了每箱的评估SNV的百分比

图3:系统质量较低的基因组区域一致性较差。在每个容器中,在其他两个指标具有高系统质量的地点报告一致性,强调每个指标的低系统质量独立的影响。

比较经验系统质量与困难区域中的基因组

虽然基因组的参考特征会对变异呼叫性能产生负面影响,但这些区域的变异呼叫准确性还没有明确定义。排除仅仅基于引用特性的变体可以消除许多高质量的变体调用。例如,Genome in a Bottle定义了几类基因组的困难区域,包括低可映射性,节段性重复,长串联重复和具有极端GC内容的区域(4).在这些类别中,18%–73%的困难区域在本分析中被标记为高系统质量(表2)。在我们的分析中,属于“困难”类别的~618k SNV的一致性为98.8%,这些SNV被确定为具有较高的系统质量。此外,根据我们的分析,在GIAB定义的系统质量较低的困难区域之外的约118k SNV中,一致性为79.9%。综合起来,这些结果表明,先前描述的困难区域过于广泛,使用经验系统质量可以更好地预测种系变异呼叫性能。

表2:GIAB困难区域是变异呼叫性能的较差预测器。

比较实证系统质量和truthset置信区域

真实的相信区域表征应该产生类似但没有相同的区域,用于高置信度变体调用从系统性质量融合产生的那些。此外,对于这些真实性设置的自信地区即使对于相同的样本也可以随着时间的推移而发展。要检查这一点,我们将基于与经验定义的自信区域的重叠相比,对不同的真实性自信区域的性能(表3)。特别重要的是,在真理特征区域内的网站并具有高系统质量均匀高度的一致性(> 99.9%)。同样,具有较差的系统质量差的网站,不包含在真实的自信地区的一致性很差。

表3:与高系统质量地区相比,truthset的SNV一致性

在该分析中,鉴定了65K至450K SNV,其在研究的真实性中不存在,一致性范围从〜91%到> 98%,表明这些网站通常是高质量的。这些观察结果与这种分析相当艰难的事实是一致的 - 我们预计随着我们的方法发展具有高系统质量的网站的一致性进一步改善。

这些观察结果导致了两个进一步的结论。首先,考虑到这里所考虑的容器的粗糙性,很可能通过更复杂的分析,这些特定于真理集的变体中的一部分最终可能被归类为具有高系统质量。剩余12%基因组的一些子集能够产生需要正交验证才能被认为是高可信度的变异呼叫。这正是truthset所提供的——无论是通过使用系谱一致性、正交平台和管道,还是手工管理,这些额外的证据使高质量的呼叫在基因组的更困难的区域。

讨论

为了成功地推动基因组数据临床应用的改进,关键是要全面了解我们的表现,不仅是在广泛的基因组范围内,而且是在高度局域范围内。通过聚合大群体的全基因组数据,我们可以开始获得关于我们在任何感兴趣区域的表现的详细信息。当我们看到对重要基因的特定影响时,这些信息使我们能够利用NGS中可用的信息,为专门的呼叫者提供临床可操作的结果,正如Illumina的定制呼叫者所展示的那样SMACYP2D66、7.通过分解我们的小型变体呼叫性能,我们越来越清楚地了解系统错误如何影响特定应用的性能。这表明未来的应用程序将使我们能够了解我们今天提供可靠的临床结果,并在我们需要将未来改善我们临床基因组的临床基因组旁边映射到我们所需的地方。

这里提出的结果表明,可以开发一组普遍的自信地区,专注于预测变体调用性能的功能。我们证明,在高系统质量的区域内,由成对复制一致性评估的性能对于SNV非常高。重要的是,由于相对于评估组的单独样品上定义了高系统质量的区域,因此这些结果可能在任何序列的基因组上呈呈概括。目前,这项工作确定了SNV呼叫> 88%的促血剂的复制率为〜99.8%,表明在基因组的这一部分内几乎没有不需要正交验证。继续工作正在进行中,以更好地识别高自信地区,占较大的基因组。此外,这项工作集中在SNV协调中,但这些方法可以扩展到更复杂的变体类型,以及躯体变体调用。

参考
  1. 王志强,王志强,等。一个参考数据集,由540万个阶段性人类变体组成,通过对一个三代17人系谱进行测序的遗传遗传验证。Genome Res。2017; 27(1):157-164。DOI:10.1101 / GR.210500.116
  2. 等。对具有链接和长读取的小变量进行基准测试。生物十四。2020;212712内政部:10.1101/2020.07.24.212712
  3. 等。一个开放资源,用于精确地对小型变量和引用调用进行基准测试。纳特生物技术公司。2019;37:561-566. 内政部:10.1038/s41587-019-0074-6
  4. Krusche P,Trigg L等人。人类基因组中种系小变异呼叫基准测试的最佳实践。生物科技Nat》。2019;37:555 - 560。doi: 10.1038 / s41587 - 019 - 0054 - x
  5. Clarke L,Fairley S等人。国际基因组样本资源(IGSR):全球范围内的基因组变异集合包含1000个基因组项目数据。《核酸研究》,2017年;45(D1):D854-D859。内政部:10.1093/nar/gkw829
  6. 陈X,桑切西A等。基因组测序数据的脊髓肌萎缩诊断和载体筛选。Genet医学院。2020;22:945-953. 内政部:10.1038/s41436-020-0754-0
  7. 陈旭,沈飞,等。Cyrius:使用全基因组测序数据进行准确的CYP2D6基因分型。药物基因组学j . 2021; 21:251 - 261。doi: 10.1038 / s41397 - 020 - 00205 - 5