识别基因组区域高质量单核苷酸变异

米切尔a . Bekritsky卡米拉科伦坡,Michael a . Eberle

介绍

随着越来越多的实验室实现全基因组测序作为临床试验,它变得越来越准确量化的关键的端到端测序管道的性能。一种选择是获得和序列参考资料和使用它们来测量变量调用相关的性能对真实数据1 - 3。这允许一个实验室准确测量很大一部分的查全率和查准率(80 - 90%)的基因组。然而,这些参考资料存在有限数量的种族同质样本和不一定全基因组预测未来样品的性能。一个互补的方法是开发一个预测样本测序方法估计性能。

变异可以影响调用随机和系统的变化。等小变异单核苷酸变异(SNVs)和短indels,随机变化有一个非常小的影响变量调用性能在大多数的基因组测序≥30 x的报道。然而,基因组区域系统受到低质量的影响——比如错误率升高,低质量或深度异常映射——可能无法提供持续甚至呼吁SNVs和indels准确的变体。许多参考特征导致这些系统误差是众所周知的——例如,高度重复区域映射质量差和均聚物是已知的导致低精度。这些知识已经被用于分类基因组到“简单”和“困难”地区4。虽然这些分类是很有帮助的,他们不是一个完美的表现在这些地区的实际性能。例如,一个大型节段重复可能高低相似组成的地区,导致非常不同的变体叫准确性。改善对这些通用的分类方法是使用实际的测序数据经验识别区域的高和低变体调用性能。

在这里,我们分析了几个测序措施收集相关数据质量在29个样品测序深度平均> 50 x。结合,我们平均有1450个基因组中读取覆盖每一个基地,让我们确定持续高质量的区域级分辨率和注释每个位置都有经验系统的高或低质量。然后,我们表明,这些注释是高度SNV性能的预测,以成对SNV和合。这些经验注释使我们改进常用reference-based分类方法。例如,地区,我们在基因组注释高信心,瓶中(GIAB)困难地区高SNV一致性(Jaccard指数= 98.8%)技术复制。相反,我们标注的区域低信心,不包括GIAB困难地区低SNV一致性(Jaccard指数= 79.9%)。我们的研究结果表明,通过聚合序列数据从许多样品我们可以识别区域的基因组小变体调用系统的高质量。

方法

建立数据库,我们选择了29个样品包括在1000人基因工程和获得的柯瑞尔研究所生物5。这些样品代表一系列多样化的种族(11个非洲、东亚9和9欧洲样品)。每个样本的DNA是使用准备的TruSeq™PCR-Free样本准备装备然后用paired-end测序150 bp读取NovaSeq™6000仪器与Xp的工作流平均深度为51 x。

排列的顺序读取与诱饵GRCh38染色体但没有交替重叠群使用Dragen™v3.4.5。因为我们有29个样品,我们预计大约1450读/在基因组中的位置。我们收集了几个指标从对齐文件(BAMs或饱)所有样本的基因组中每个位置包括:

  • 归一化深度:对于每一个样本,计算归一化深度平均每个职位的覆盖规范化的常染色体覆盖,所以常染色体中值值对应深度报道。规范化的平均深度是所有样品回去给我们的最后的队列深度。
  • 意思是映射质量:意思是映射质量在所有对齐读取所有样本重叠基因的位置。
  • % Q20 basecalls:basecalls的百分比在基因组的位置在所有样本Phred-scaled质量分数超过20,对应于一个错误率≤1%。

我们衡量SNV表现使用一致性分析,计算使用Jaccard指数:

A和B是两组变量调用从两个变体(vcf)调用文件,通常从复制相同的样本。在分子上,A和B的交集的定义是所有变量调用同时呈现在vcf相同的基因型。A和B的分母,工会被定义为所有变体调用中出现的VCF。这些变体的Jaccard指数叫集的交集的调用设置除以工会的电话。

地面实况资源相比,一些可再生的变异可能是由于系统误差,但结果仍然是高度信息化的总体性能评估。我们所有的分析,我们将展示Jaccard指数平均在30随机NA12878技术复制相结合。和谐价值观和变异的数量在每个类报道平均30复制。

当计算autosome-wide性能,我们排除了Ns和参考基因组的差异。

结果

聚合数据提供了重要的动力检测系统误差趋势可能无法检测到在一个测序实验。考虑一个网站有40读取与30 x值常染色体基因组覆盖率。如果我们假设一个泊松分布的30倍,这将会发生由于泊松采样的大约14每1000个独立的网站。因此很难确定观察到的高覆盖率是否随机或系统。相反,当观察同一地点在人口30个人30 x保险,如果每一个人正好有40 x现场报道,我们可以非常确定的(p = 2 e-56)覆盖变化的网站不受随机过程。聚合获得最高深度数据从许多样品让我们识别系统异常,最有可能导致贫穷的变体调用性能。在一个大的样本来自不同的种族背景,常见的突变和allele-specific构件是可识别的,如果他们足够罕见,那么他们将有聚合总结指标的影响有限。

分层的基因组度量性能

方法中概述的过程后,我们收集三个性能指标(图1)。

图1:被系统的一致性指标聚合在整个基因组测序数据。度量半开的垃圾箱。垃圾箱代表高质量系统的蓝色阴影,而代表低系统质量红色阴影。这是保持所有数据在整篇文章中。作为描述的文本,我们定义区域具有高系统质量Q20≥90%时,平均映射质量≥50岁和平均归一化深度内25%的目标覆盖。

大多数(> 88%)的常染色体base-calling高品质,自信地对齐参考基因组,并在每个样本的目标二倍体覆盖率(表1)。这一分析,我们高质量系统的区域定义为那些Q20≥90%,意味着映射质量≥50岁和深度覆盖范围在25%以内的目标。使用这些定义,我们得到以下的常染色体,扣除空白:

表1:百分比的non-N常染色体落入每个系统的质量。蓝色的圆圈表示特定度量系统的质量高,而红圈表示低系统的质量。

这些指标的变化可以影响小变体调用性能,然而,为了精确测量性能,我们不应该仅仅依靠truthsets1 - 3因为他们可能不太全面系统的质量较低的地区(图2)。和谐是95.7%通过SNVs autosome-wide但更高(99.8%)~ 88%的高质量的基因组,这意味着SNV要求非常精确的在绝大多数已知的基因组。较低的区域系统的质量只占12%的基因组在此基础上分析,特别是性能下降。当任何单个指标的证据系统质量差,平均一致性下降到66.7%,当所有指标有系统的质量差,和谐是46.8%(图3)。

图2:Truthsets几乎没有应税SNVs地区较低的系统的质量。百分比的每本给出评估SNVs铂基因组v2017.1 truthset

图3:一致性差的地区较低的基因组系统的质量。在每一本,和谐是在网站报道,另外两个指标系统的高质量、突出低系统质量的影响为每个独立指标。

比较实证系统质量基因组在瓶子里困难的地区

虽然参考基因组的特点可以负面影响变量调用性能、变体叫精度在这些地区没有明确定义。不包括变体完全基于调用引用特性可以消除许多高质量的变体。例如,基因组在瓶子里定义了几类困难的基因组区域,包括低mappability、节段重复,漫长的串联重复序列,和地区与极端的GC含量(4)。在每一个类,18% - 73%的这些困难的区域贴上高系统质量分析(表2)。一致性为98.8% ~ 618 k SNVs落入“困难”类的决心有高系统的质量在我们的分析。此外,在~ 118 k SNVs GIAB超出定义的困难地区的低系统的质量基于我们的分析,和谐是79.9%。相结合,这些结果表明,先前描述的困难地区过于广泛,使用经验系统的质量可以更好地预测生殖系变异调用的性能。

表2:GIAB困难地区贫穷预测变量调用性能。

比较实证系统质量truthset自信的地区

Truthset自信区域特征将产生相似,但不完全相同,地区高信心变体产生系统性的质量装箱的人打电话。此外,自信的地区确定为这些truthsets相同的样本甚至可以随时间而变化。检查这个,我们比较truthset自信不同区域的性能基于重叠与我们empirically-defined自信区域(表3)。特别重要,网站都是truthset自信区域内和系统高质量均匀一致高(> 99.9%)。同样,系统质量差的网站不包含在truthset自信地区非常贫穷的一致性。

表3:SNV和合truthsets比地区系统的高质量

在这个分析,65 k到450 k SNVs确定不出现在truthsets研究和谐从~ 91% > 98%,表明这些网站通常是高质量的。这些观察是一致的,这一分析是相当基本的,我们期望进一步提高一致性高的网站系统的质量为我们的开发方法。

这些观察结果导致两个进一步的结论。首先,考虑到粗糙的垃圾箱认为,很可能与更复杂的分析,这些truthset-specific变异的比例可能最终被列为高系统的质量。其余12%的基因组的某个子集能产生变体调用需要考虑正交验证高的信心。这正是truthset提供——无论是通过使用血统一致性、正交平台和管道,或人工管理,这个额外的证据使高质量的调用更加困难地区的基因组。

讨论

成功的临床效用的提高基因组数据,有一个完整的理解是至关重要的性能,不仅广泛,全基因组规模,但规模在当地一个高度。通过全基因组在庞大的人口聚集数据,我们可以开始获得详细的信息关于我们的性能在任何地区的利益。当我们看到具体影响重要基因,这些信息使我们能够工作在门店专门调用者,利用信息提供临床可行的结果,证明了在Illumina公司的定制的调用者SMACYP2D66、7。通过分解我们的小变体调用的性能,我们获得越来越清晰的系统误差影响特定于应用程序的性能。这表明未来的应用程序将使我们能够理解我们今天提供可靠的临床结果和地图,我们需要集中我们的努力下提高我们的将来临床基因组。

这里给出的结果表明,它有可能开发出一套通用的自信的区域集中在功能调用的性能预测的变体。我们证明了区域内高系统的质量、性能评估成对复制一致性是SNVs异常高。重要的是,因为高系统质量的区域被定义在不同的样本相对于评价集,这些结果可能概括过任何基因组测序。目前,这项工作确定SNV调用在常染色体复制率> 88% ~ 99.8%,表明很少有不需要正交验证在这个基因组的一部分。持续工作正在进行更好地识别高自信区域覆盖基因组的一个更大的百分比。此外,这项工作集中在SNV一致性,但这些方法可以扩展到更复杂的变异类型,以及体细胞变异。

引用
  1. 马Eberle Fritzilas E, et al。一组参考数据的540万分阶段人类变异的遗传基因测序验证一个三代同堂的17人的血统。基因组研究》2017;27 (1):157 - 164。doi: 10.1101 / gr.210500.116
  2. 瓦格纳J,奥尔森ND, et al。基准测试挑战小变异和长读有关。bioRxiv。2020年,212712年。doi: 10.1101 / 2020.07.24.212712
  3. 祖克JM, McDaniel J, et al。开放资源准确的基准测试小变体和引用调用。生物科技Nat》。2019; 37:561 - 566。doi: 10.1038 / s41587 - 019 - 0074 - 6
  4. Krusche P区格L et al。基准测试的最佳实践生殖系small-variant调用在人类基因组。生物科技Nat》。2019; 37:555 - 560。doi: 10.1038 / s41587 - 019 - 0054 - x
  5. 克拉克L, Fairley年代,et al。国际基因组样本资源(IGSR):世界范围内的基因组变异将1000人基因工程数据。核酸研究》2017;45 (D1): D854-D859。doi: 10.1093 / nar / gkw829
  6. 陈X, Sanchis-Juan, et al。脊髓性肌肉萎缩症诊断和载体从基因组测序数据筛选。麝猫医学。2020;22:945 - 953。doi: 10.1038 / s41436 - 020 - 0754 - 0
  7. 陈X,沈F, et al。使用全基因组测序数据Cyrius:准确CYP2D6基因分型。药物基因组学j . 2021; 21:251 - 261。doi: 10.1038 / s41397 - 020 - 00205 - 5