跳到内容

基于图模型和群体信息的结构变异精确基因分型

陈赛和Michael A. Eberle

分享这篇文章

介绍

结构变异(SV)在个体间的核苷酸序列差异中占很大比例,并与许多人类疾病有关1、2.然而,SVs的准确检测仍然是一个挑战,部分原因是与参考基因组的显著偏差可能使比对变得困难,特别是对短读全基因组测序(WGS)数据3..尽管长读测序技术的最新进展使SVs的检测变得更容易,但它们的应用受到成本、吞吐量和需要大量的DNA(每个基因组约5ug,而Illumina无pcr协议约25ng)的限制。4. 或者,科学家可以通过使用从参考SV数据库构建的图形方法对已知变异进行基因分型来研究SV,该参考SV数据库可以使用多种技术组合构建5.随着这些参考数据库的发展,种群测序数据可以用更新的信息重新进行基因分型,以更全面地了解SV变异。

在这篇文章中,我们评估了我们基于图的基因分型器(Paragraph)的基因分型性能,该基因分型器能够在大量用短读序列测序的样本中对已知的svv进行基因分型。段落结构的有向无环图代表参考等位基因和任何可能的替代路径的等位基因,重新读取这个序列图和基因型SV的基础上重新读取(图1)。我们应用段落一套breakpoint-accurate SV真理,是由三个样品测序读长6.除了通过对用于构建真相数据的样本中的svv进行基因分型来评估准确性外,我们还对包含2501个不相关个体的1000个基因组群体中的svv进行基因分型,并使用群体遗传学指标来量化SV调用的准确性7、15. Hardy-Weinberg均衡(HWE)等指标使我们能够研究人群中变异的总体表现,并识别可能的系统误差,这些误差可能不是通过测试少数样本就能检测到的8.利用1000个基因组样本,我们证明了种群水平的基因分型统计可以帮助清理呼叫。我们进一步量化了这些svv在不同种族的人口分布,并在功能基因组元件中鉴定了纯化选择的特征。

结果

建立SV真理集

我们从包含在Genome in a Bottle (GIAB)项目数据中的三个样本开始:NA12878 (HG001)、NA24385 (HG002)和NA24631 (HG005)(数据和材料的可用性)。使用太平洋生物科学(PacBio) Sequel系统为这些样本生成长读序列数据。这些样本的测序深度平均为30倍,HiFi读取深度约为11000碱基对(bp)。根据这一数据,我们使用PBSV称其为SVs (50bp+)9.在合并这些svv后,我们鉴定出38709个独特的常染色体svv。因为段落被设计用于具有单个SV的区域,所以我们排除了观测到多个SV的区域(例如,具有不同断点的重叠或附近的SV)。这就留下了20108个SVs(9,238个缺失和10.870个插入)作为我们的长读ground truth (LRGT),用于检测和群体基因分型。关于这些sv的完整描述可以在这里找到6

单样本召回率和精度

图1所示。概述SV基因分型工作流程。

为了评估这些svv的基因分型性能,我们对NA12878 (63x)、NA24385 (35x)和NA24631 (40x)的短读数据进行了LRGT svv的基因分型,使用我们的图形基因分型(图1)。6.由于在长读SV调用者中对纯合与杂合等位基因分类的准确性尚未得到系统评估,我们的测试重点是变异的存在/缺失,而不是基因分型一致性。因此,我们将一个变异定义为真阳性(TP),如果段落调用一个非参照基因型,其中一个SV也存在于LRGT中,如果段落调用一个非参照等位基因,而LRGT在该样本中不包含一个变异,则为假阳性(FP)。根据这个定义,LRGT有38239个作为TPs的备选基因型和2285个用于计算FPs的参考基因型。在三个样本的独立测试中平均,段落的召回率为0.84,精确度为0.88(表1)6

类型

#真相测试程序集

回忆

#真理FPs

精度

f值

删除

16,936

0.84

10778年

0.92

0.88

插入

21303年

0.88

11307年

0.89

0.88

表1。段落的性能,在LRGT上测试

通过研究这些有问题的呼叫,我们发现59%的FNs和77%的FPs发生在串联重复(TRs)内重叠的svv中。在TRs之外的svv中,段落的召回率(0.90)远高于在TRs内的svv(0.79)。我们还发现,较小(<200bp)的SVs比较大(> 1000 bp)的SVs(~35%)更有可能在TRs(~75%)内。此外,在我们的原始论文中,我们表明SV断点的错误(例如错误的位置或大小)将对段落的性能产生负面影响。

2501个不同人类基因组的基因分型

基因型的结果来自于一个群体中许多不相关的样本,这使我们能够利用群体遗传学测量(如HWE)来评估一个变异呼叫者的准确性,即使在没有基础真实数据存在的情况下也是如此。为了证明段落基因分型能力,也为了研究群体统计,我们从公开的1000个基因组测序资源中,对2501个不相关的个体(不包括NA24385或NA24631)进行LRGT svv的基因分型。该数据集代表了一个种族多样化的人口,其中660名非洲人(AFR), 347名美国人(AMR), 501名东亚人(EAS), 489名南亚人(SAS)和504名欧洲人(EUR)。10.所有样本均在Illumina NovaSeq平台上测序,测序深度至少为30倍,配对序列为150 bp。测序数据用我们的Dragen v3.5.7b工作流程处理14

图2。LRGT svv在1000个基因组群体中的等位基因频率分布。

虚线:所有SV。实线:至少在一个群体中通过HWE测试的SV。

我们总结了LRGT svv在每个群体和整个数据集的等位基因频率(AF)分布,然后使用HWE识别与群体遗传期望不一致的svv(图2)。HWE的偏差可能是由基因分型错误引起的。种群的子结构也会导致与HWE的偏差,为了使这种影响最小化,我们进行了HWE检验(fisher’s exact test)11),并按每个SV按种群分类HWE的不一致性(图3a)。
图3。LRGT svv的hwe滤波状态。

a)每个人群中HWE通过(实心条)和不通过(轻条)的suv数量。b)统计至少一个种群中有多少种群没有通过HWE测试。

我们观察到,在所有5个群体中,有14568人(73%)通过了HWE测试。在任何人群中,有2,904人(14%)没有通过HWE测试。在一些人群中,2636名sv(13%)通过了HWE测试,但不是所有五人(图3b)。在所有5个群体中未能通过HWE测试的SV中,有78%与TRs重叠。在TRs中,通过基因组图的不同路径可能非常相似,这使得目前在段落中使用的比对几乎是随机的,导致了大量的杂合基因型。这表明,为了提高tr -重叠svv的基因分型性能,需要建立不同的图基因分型模型。在去除hwe不一致的svv后,我们注意到在0.5左右的意外AF峰被消除了(图2,实线)。对于部分种群中HWE不一致的14%的SVs,大多数没有显示出极显著的HWE p值,这可能表明这些SVs在少数样本或某些种群中可能存在断点偏差。

SV在混合种群中的分布

在过滤掉未通过HWE测试的sv后,AF在所有人群中的总体分布是相似的。尽管AF中有这种相似性,但通过hwi传递的SVs基因型剂量的主成分分析(0表示纯合子参考基因型和缺失基因型,1表示杂合子,2表示纯合子替代基因型)揭示了LRGT SVs的群体特异性(图4a)。在第一主成分和第二主成分的二维空间中投影,AFR、EAS、EUR和SAS样本得到了清晰的分离。相反,不同祖先种群之间的抗微生物药物耐药性样本图与混合种群的预期一样。

图4。LRGT SVs的人群特异性和功能影响。

a) 1000个通过hwes的基因组样本的PCA双图。b)每个群体中固定sv的数量。c)所有人群中不同功能部件的SV AFs。

我们总共观察到525个SVs,它们在所有5个群体中都是固定的,可能代表参考基因组中的稀有等位基因(图4b)。除此之外,有715辆suv在至少一个群体中是固定的。AFR是最分散的群体,固定svv比其他群体少。结合功能注释,303个固定的sv是外显子的。1638 bp外显子插入UBE2QL1在之前的两项研究中12、13.特别是,TOPMed最近的一项研究报告称,这种插入在所有53,581个混合祖先的测序个体中13

基于基因组背景,我们还观察到了不同的SVs的AFs。编码序列外显子内、伪基因和非翻译区(utr)内的SVs一般比内含子区和基因间区具有较低的AFs。与功能元件(utr,外显子)中较极端的AFs相比,内含子和基因间区域中的SVs具有更均匀的AF分布(图4c)。所有这些都表明,针对suv的净化选择具有潜在的功能性后果7.虽然常见的svv在功能元件上更衰竭,但我们确实看到一些常见的svv在基因外显子内包括TP73(总AF=0.16,肿瘤抑制基因),FAM110D(AF=0.65 overall,功能尚待阐明,可能与细胞周期有关)OVGP1(AF=0.20,与受精和早期胚胎发育有关)。具体来说,TP73的缺失在亚群体中有非常不同的频率:在AFR中低至0.02,而在EUR和EAS中高于0.20。

结论

在本文中,我们简要回顾了我们为GIAB财团中包含的三个样本创建的SV真值集的初始版本。此真值集演示了使用图形方法对高质量SVs数据库进行基因分型的能力。我们正在进行的工作扩展了该数据库,并以更好的基因分型准确性改进了段落。通过在不同的1000个基因组群体中对这些SV进行基因分型,我们证明了即使在缺乏单一样本基础真相数据的情况下,群体数据也可以用作质量控制。此外,我们还证明,在我们的基本真相数据中确定的许多外显子SV也在1000个基因组样本中发现,并显示出选择的迹象。直接在WGS队列中使用段落对这些外显子SVs进行基因分型可能有助于我们进一步了解这些SVs/基因的生物学特性。

数据和材料的可用性

段落软件公开可在https://github.com/Illumina/paragraph

NA12878、NA24385和NA24631 PacBio数据在PRJNA540705、PRJNA529679和PRJNA540706下沉积于SRA中。他们的Illumina数据保存在ENA的PRJEB35491下。

Dragen重新处理的1000个基因组数据可在https://registry.opendata.aws/ilmn-dragen-1kgp/

参考文献
  1. Weischenfeldt,J.,Symmons,O.,Spitz,F.&Korbel,J.O。基因组结构变异的表型影响:来自和对人类疾病的见解。Nat Rev Genet 14,125 - 138(2013)。
  2. Lee, C. & Scherer, S.W.人类基因组拷贝数变异的临床背景。专家Rev Mol Med 12,e8(2010)。
  3. 古德温,S.,麦克弗森,J.D.和麦康比,W.R。未来十年:下一代测序技术。Nat Rev Genet 17,333-351 (2016).
  4. 希礼,电子艺界走向精确医学。Nat Rev Genet 17,507 - 522(2016)。
  5. Logsdon,G.A.,Vollger,M.R.和Eichler,E.E。长阅读人类基因组测序及其应用。基因组医学杂志291(2019)。
  6. Chen,S.等人。段落:短读序列数据的基于图表的结构变异基因型。基因组医学杂志291(2019)。
  7. 苏曼特等。2504个人类基因组结构变异的综合图谱。自然526年,75 - 81(2015)。
  8. 李,H。一个统计框架,用于SNP调用、突变发现、关联映射和从测序数据估计群体遗传参数。生物信息学27日,2987 - 2993(2011)。
  9. 温格,A.M.等人。精确的循环一致长读测序改进了人类基因组的变异检测和组装。生物科技Nat》37岁,1155 - 1162(2019)。
  10. 基因组计划,C.等。人类遗传变异的全球参考。自然526年,68 - 74(2015)。
  11. Wigginton,J.E.,Cutler,D.J.和Abecasis,G.R。关于哈迪-温伯格平衡的精确检验的注释。J是Hum Genet吗76, 887-893 (2005).
  12. R.M.谢尔曼等人。通过对910名非洲人后裔的深度测序组装了一个泛基因组。Nat麝猫51岁- 35(2019)。
  13. 刘晓云,D.等。来自NHLBI TOPMed项目的53,831个不同基因组的测序。bioRxiv,563866(2019)。
  14. 朱e,弗里德曼A。1000个基因组数据集的DRAGEN再分析现在可以在开放数据注册表上获得。亚马逊网络服务,2020.
  15. Bryska-Bishop, M.等。扩展的1000个基因组项目队列的高覆盖全基因组测序,包括602个三联体。bioRxiv,430068(2021)。