跳到内容

使用图形模型和人口信息准确的结构变体基因分型

西辰和迈克尔A.埃伯勒

分享这篇文章

介绍

结构变体(SVS)有助于个体之间的核苷酸序列差异的显着比例,并且涉及许多人类疾病1,2.然而,svv的准确检测仍然是一个挑战,部分原因是与参考基因组的显著偏差会使比对困难,特别是对于短读全基因组测序(WGS)数据3..尽管最近长链测序技术的进步使检测svv变得更容易,但其应用受到成本、通量和需要大量DNA的限制(每个基因组约5ug,而Illumina无pcr协议约25ng)。4.或者,科学家可以通过使用由参考SV数据库构建的图表方法进行基因分型的已知变体在人口水平上研究SVS,这些变体可以使用技术组合构建的参考SV数据库5.随着这些参考数据库的发展,可以用更新的SV变化图像进行更新的信息来重新基因分开。

在这篇文章中,我们评估了我们的基于图的基因分型的表现,该基因分型能够在大量的短读序列样本中对已知的SVs进行基因分型。段落结构的有向无环图代表参考等位基因和任何可能的替代路径的等位基因,重新读取这个序列图和基因型SV的基础上重新读取(图1)。我们应用段落一套breakpoint-accurate SV真理,是由三个样品测序读长6.除了通过对用于构建真实数据的样本中的svv进行基因分型来评估准确性之外,我们还对由2501个不相关个体组成的1000个基因组群体中的真相集svv进行了基因分型,并使用群体遗传学指标来量化SV调用的准确性7,15..哈迪 - Weinberg均衡(HWE)等度量允许我们研究人口中变种的整体性能,并通过仅通过测试少量样品来识别可能无法检测到的系统错误8.利用1000个基因组样本,我们证明了种群水平的基因分型统计可以帮助清除呼叫。我们进一步量化了这些sv在不同种族的人口分布,并确定了功能基因组元件的纯化选择特征。

结果

构建SV真值集

我们从瓶子(GIAB)项目数据中包括在基因组中的三个样品:Na12878(HG001),Na24385(HG002)和NA24631(HG005)(数据和材料的可用性)。使用太平洋生物科(PACBIO)续集系统为这些样品产生长读序列数据。将这些样品测序,平均为30倍的深度,〜11,000个碱基对(BP)HIFI读数。从此数据,我们使用PBSV调用SVS(50bp +)9.合并这些SVS后,我们确定了38,709个独特的常染色体SV。因为段落设计用于用单个SV的区域工作,所以我们排除了观察到一个以上SV的区域(例如,重叠或附近具有不同断点的SV)。这留下了20,108 svs(9,238删除和10.870插入)作为我们的长读地面真理(LRGT),用于测试和群体基因分型目的。这里可以在此处找到对这些SV的完整描述6

单样本召回和精度

图1所示。段落中实施的SV基因分型工作流程概述。

为了评估这些SVS的基因分型性能,我们使用我们的曲线键仪,段落(图1)在Na12878(63x),Na24385(35x)和Na24631(40X)的短读数据上进行基因分型对我们的LRGT SVS6.由于尚未系统地评估了长读的SV呼叫者中纯合的杂合等位基因的准确性,因此我们将我们专注于对变体存在/不存在的测试,而不是基因分型的一致性。因此,我们将一个变体定义为真正的阳性(TP),如果段落产生非参考基因型呼叫,其中SV也存在于LRGT中,如果段落呼叫在位置处的非参考等位基因(FP)中LRGT不包括该样本中的变体。通过这种定义,LRGT具有38,239个单独的替代基因型,其用作TPS和22,085个参考基因型来计算FPS。对三个样品的独立测试进行平均,段落的召回量为0.84,精度为0.88(表1)6

类型

#truth tps.

记起

#truth fps.

精度

f值

删除

16,936

0.84

10778年

0.92

0.88

插入

21303年

0.88

11307年

0.89

0.88

表1。在LRGT上测试了分段的性能

通过对问题调用的研究,我们发现59%的fn和77%的FPs发生在串联重复序列(TRs)中重叠的sv中。段落在TRs之外的sv中召回率(0.90)比TRs以内的sv(0.79)高得多。我们还发现,较小的(<200bp) SVs更可能在TRs(~75%)范围内,而较大的(> 1000 bp) SVs(~35%)范围内。此外,在我们的原始论文中,我们指出SV断点中的错误(例如不正确的位置或大小)将对段落的性能产生负面影响。

基因分型2,501种不同的人类基因组

基因型结果来自于一个群体中许多不相关的样本,这使得我们可以用诸如HWE等群体遗传学测量来评估变异调用者的准确性,即使没有地面真实数据存在。为了展示分段基因分型能力,同时也为了研究群体统计,我们从公开的1000个基因组测序资源中,对2501个不相关的个体(不包括NA24385或NA24631)进行了LRGT sv基因分型。该数据集代表了660个非洲人(AFR), 347个美国人(AMR), 501个东亚人(EAS), 489个南亚人(SAS)和504个欧洲人(EUR)的多民族人口。10.所有样本在Illumina NovaSeq平台上进行测序,测序长度为150 bp,深度至少为30倍。测序数据采用我们的Dragen v3.5.7b工作流进行处理14

图2. 1000个基因组人群中LRGT SV的等位基因频率分布。

虚线:所有svs。实线:在至少一种人口中通过HWE测试的SV。

我们总结了LRGT变异株的等位基因频率(AF)在每个群体和整个数据集中的分布,然后使用HWE识别出与群体遗传学期望不一致的变异株(图2)。然而,由于选择,基因型频率可能会偏离HWE期望。HWE的偏差可能是由基因分型错误引起的。种群子结构也会导致与HWE的偏差,因此为了将这种影响降到最低,我们进行了HWE检验(fisher’s exact test)11),并按每个SV的种群对HWE不一致性进行分类(图3a)。
图3。LRGT sv的hwe过滤状态。

a)每个种群HWE通过(实条)和不通过(光条)svv的计数。b)统计至少一个种群中HWE测试失败的svv的HWE测试失败的种群数。

我们观察到,在所有5个群体中,有14568(73%)的svv通过了HWE检测。在任何人群中,2,904(14%)的svv未通过HWE测试。在一些人群中,2,636(13%)的SVs通过了HWE测试,但并非所有五种SVs都通过了(图3b)。在所有5个群体中未通过HWE测试的SV中,78%重叠了TRs。在TRs中,通过基因组图的不同路径可能非常相似,这使得在段落中使用的当前比对几乎是随机的,导致大量的杂合基因型。这表明需要一个不同的图型基因分型模型来提高tr -重叠sv的基因分型性能。在去除hwe不一致的sv后,我们注意到在0.5左右的意外AF峰值被消除了(图2,实线)。对于某些种群中HWE不一致的14%的sv,大多数HWE p值并不显著,这可能表明这些sv在少数样本或某些种群中可能存在断点偏差。

SV在混合种群中的分布

在过滤OUT失败我们HWE测试的SV后,整个群体的整体AF分布类似。尽管AF中的这种相似性,所以通过SVS的基因型剂量的主要成分分析(PCA)(0用于纯合学基因型和缺失基因型,1对于纯合酶,1用于纯合子替代基因型)揭示了LRGT SVS的群体特异性(图4A)。在第一和第二主成分的二维空间中投射,AFR,EAS,EUR和SAS样本明显分开。相反,AMR样本在不同的祖传人群之间映射,如将预期的血统群体。

图4. LRGT SVS的种群特异性和功能影响。

a)通过hwe的sv的1000个基因组样本的PCA双标图。b)每个种群中固定svv的计数。c)所有种群中不同功能元素的SV AFs。

总共观察到525个SV,其在所有5个群体中固定在可能代表参考基因组中的罕见等位基因(图4B)。除此之外,还有715个SV,在至少一个人口中固定。符合最分散的人群,AFR的固定SV少于其他人群。结合功能性注释,303固定的SVS是外部的。1,638 BP封面插入ube2ql1.在两项研究中也以非常高的频率报道12、13.特别值得一提的是,TOPMed最近的一项研究报告,在所有53581个来自混合祖先的测序个体中都发现了这种插入13

我们还观察到不同的AFs为SVs基于基因组背景。编码序列外显子、假基因和非翻译区(utr)内的sv的AFs一般低于内含子区和基因间区。与功能元件(UTRs、外显子)中较为极端的AFs相比,内含子和基因间区域的SVs的AF分布更为均匀(图4c)。所有这些都表明了一种针对svv的具有潜在功能后果的净化选择7.虽然普通的sv在功能元素上更贫乏,但我们确实在基因外显子中看到一些常见的sv,包括TP73(总体AF=0.16,抑癌基因),FAM110D(AF=0.65,功能有待澄清,可能与细胞周期有关)OVGP1(总体AF=0.20,与受精和早期胚胎发育有关)。具体来说,TP73的缺失在亚群体中有非常不同的频率:在AFR中,它低至0.02,而在EUR和EAS中则高于0.20。

结论

在本文中,我们简要介绍了我们为Giab Consortium中包含的三个样本创建的SV真实集的初始版本。这个真实性集展示了使用图形方法对基因型的能力进行基因型的高质量SVS数据库。我们正在进行的工作与扩展此数据库,并以更好的基因分型准确性改进段落。通过在多种1000个基因组人群中进行基因分型这些SV,我们证明了即使在没有单样本地面真实数据的情况下也可以用作质量控制的群体数据。此外,我们表明,在1000个基因组样本中也发现了我们地面真实数据中鉴定的许多外静脉SV和表现出选择的迹象。基因分型使用WG的群组中使用段落进行基因分型可能进一步帮助我们理解这些SVS /基因的生物学。

数据和材料的可用性

段落软件可在以下网址获得https://github.com/Illumina/paragraph

在PRJNA540705、PRJNA529679和PRJNA540706下,NA12878、NA24385和NA24631 PacBio数据存入SRA。他们的Illumina数据在PRJEB35491下保存在ENA中。

DRADREN再加工1000个基因组数据可用https://registry.opendata.aws/ilmn-dragen-1kgp/

参考
  1. Weischenfeldt,J.,Symmons,O.,Spitz,F.&Korbel,J.O。基因组结构变异的表型影响:来自人类疾病和对人类疾病的见解。NAT Rev Genet 14,125-138(2013)。
  2. 李,C. &谢勒,S.W.人类基因组拷贝数变异的临床背景。专家Rev Mol Med 12,e8(2010)。
  3. Goodwin,S.,McHerson,J.D.&McCombie,W.R.成熟:十年的下一代测序技术。NAT Rev Genet 17,333-351(2016)。
  4. 希礼,电子艺界朝向精密药物。NAT Rev Genet 17,507-522(2016)。
  5. Logsdon,G.A.,Voller,M.R.&Eichler,即长读人类基因组测序及其应用。基因组医学杂志20,291(2019)。
  6. 陈,S.等。段落:一个基于图的结构变异基因型的短读序列数据。基因组医学杂志20,291(2019)。
  7. SUDMANT,P.H.等等。2,504人类基因组结构变异的集成图。自然526年,75 - 81(2015)。
  8. 李,H.SNP呼叫,突变发现,关联映射和群体总群参数估计的统计框架免于测序数据。生物信息学27日,2987 - 2993(2011)。
  9. 温格,上午等等。准确的循环共识长读取测序改善了人类基因组的变体检测和组装。生物科技Nat》37岁,1155 - 1162(2019)。
  10. Genomes项目,C.等人。人类基因变异的全球参考。自然526年,68 - 74(2015)。
  11. Wigginton,J.E.,Cutler,D.J.&abecasis,g.r.关于Hardy-Weinberg均衡的精确测试的说明。Am J Hum Genet76,887-893(2005)。
  12. 谢尔曼,R.M.等人。从910人血统的深度测序中组装泛基因组。Nat麝猫51岁- 35(2019)。
  13. Taliun, D.等。测序来自NHLBI TOPMed项目的53,831个不同基因组。bioRxiv,563866(2019)。
  14. 朱恩,傅立德。Dragen Reanalicate的1000个基因组数据集现在可在开放数据的注册表中提供。亚马逊网络服务,2020.
  15. Bryska-Bishop等人。扩大的1000个基因组计划队列的高覆盖率全基因组测序,包括602个三人组。bioRxiv,430068(2021)。