跳到内容

基于图模型和群体信息的结构变异精确基因分型

陈赛和Michael A. Eberle

分享这篇文章

介绍

结构变异(SVs)对个体之间的核苷酸序列差异有很大的影响,并与许多人类疾病有关1、2.然而,SVs的准确检测仍然是一个挑战,部分原因是与参考基因组的显著偏差可能使比对变得困难,特别是对短读全基因组测序(WGS)数据3..尽管长读测序技术的最新进展使SVs的检测变得更容易,但它们的应用受到成本、吞吐量和需要大量的DNA(每个基因组约5ug,而Illumina无pcr协议约25ng)的限制。4.或者,科学家可以在群体水平上研究SV,通过使用从参考SV数据库构建的图表方法对已知变异进行基因分型,该数据库可以使用多种技术组合构建5.随着这些参考数据库的发展,种群测序数据可以用更新的信息重新进行基因分型,以更全面地了解SV变异。

在本文中,我们评估了基于图表的基因杆菌,段落的基因分型性能,其能够在短读取的大量样品中进行基因分型的已知SV。段落构造具有表示参考等位基因和任何可能的替代等位基因的路径的有向非循环图,Realigns读取到该序列图和基因型基于重新读数的SVS(图1)。我们将段落应用于一个断点 - 准确的SV真理集,该定组由长读取的三个样本构成6.除了通过对用于构建真相数据的样本中的svv进行基因分型来评估准确性外,我们还对包含2501个不相关个体的1000个基因组群体中的svv进行基因分型,并使用群体遗传学指标来量化SV调用的准确性7、15.哈迪-温伯格平衡(HWE)等指标使我们能够研究总体变异的总体表现,并识别仅通过测试少数样本可能无法检测到的可能的系统错误8.使用1000个基因组样本,我们证明人口级基因分型统计可以帮助清理呼叫。我们进一步量化了不同种族中这些SVS的人口分布,并确定了功能基因组元素中纯化选择的签名。

结果

建立SV真相套装

我们从包含在Genome in a Bottle (GIAB)项目数据中的三个样本开始:NA12878 (HG001)、NA24385 (HG002)和NA24631 (HG005)(数据和材料的可用性)。使用太平洋生物科学(PacBio) Sequel系统为这些样本生成长读序列数据。这些样本的测序深度平均为30倍,HiFi读取深度约为11000碱基对(bp)。根据这一数据,我们使用PBSV称其为SVs (50bp+)9.在合并这些svv后,我们鉴定出38709个独特的常染色体svv。因为段落被设计用于具有单个SV的区域,所以我们排除了观测到多个SV的区域(例如,具有不同断点的重叠或附近的SV)。这就留下了20108个SVs(9,238个缺失和10.870个插入)作为我们的长读ground truth (LRGT),用于检测和群体基因分型。关于这些sv的完整描述可以在这里找到6

单样本召回和精度

图1.在段落中实施的SV基因分型工作流程概述。

为了评估这些svv的基因分型性能,我们对NA12878 (63x)、NA24385 (35x)和NA24631 (40x)的短读数据进行了LRGT svv的基因分型,使用我们的图形基因分型(图1)。6.由于在长读SV调用者中对纯合与杂合等位基因分类的准确性尚未得到系统评估,我们的测试重点是变异的存在/缺失,而不是基因分型一致性。因此,我们将一个变异定义为真阳性(TP),如果段落调用一个非参照基因型,其中一个SV也存在于LRGT中,如果段落调用一个非参照等位基因,而LRGT在该样本中不包含一个变异,则为假阳性(FP)。根据这个定义,LRGT有38239个作为TPs的备选基因型和2285个用于计算FPs的参考基因型。在三个样本的独立测试中平均,段落的召回率为0.84,精确度为0.88(表1)6

类型

#真理TPs

回忆

#真理FPs

精确

f值

删除

16936年

0.84

10,778

0.92

0.88

插入

21303年

0.88

11,307

0.89

0.88

表1.段落的性能,在LRGT上进行测试

调查有问题的电话,我们发现59%的FNS和77%的FPS在SV中发生在串联重复(TRS)内重叠。段落在TRS之外的SV中有更好的召回(0.90),而不是在TRS中的那些(0.79)。我们还发现较小的(<200bp)svs比较大(> 1,000bp)svs(〜35%)更容易在TRS(〜75%)内。此外,在我们的原文中,我们显示SV断点中的错误(例如,位置或大小不正确)会对段落的性能产生负面影响。

2501个不同人类基因组的基因分型

基因型的结果来自于一个群体中许多不相关的样本,这使我们能够利用群体遗传学测量(如HWE)来评估一个变异呼叫者的准确性,即使在没有基础真实数据存在的情况下也是如此。为了证明段落基因分型能力,也为了研究群体统计,我们从公开的1000个基因组测序资源中,对2501个不相关的个体(不包括NA24385或NA24631)进行LRGT svv的基因分型。该数据集代表了一个种族多样化的人口,其中660名非洲人(AFR), 347名美国人(AMR), 501名东亚人(EAS), 489名南亚人(SAS)和504名欧洲人(EUR)。10..所有样品在Illumina Novaseq平台上测序,其中150bp成对端读入至少30倍深度。使用我们的Dragen V3.5.7b工作流程处理序列数据14.

图2。LRGT svv在1000个基因组群体中的等位基因频率分布。

虚线:所有suv。实线:至少在一个群体中通过HWE测试的suv。

我们总结了每个人群中LRGT SV的等位基因频率(AF)分布,然后使用HWE识别与人口遗传学期望不一致的SVS(图2)。虽然基因型频率可能偏离由于选择而偏离HWE期望,但是来自HWE的偏差可能是由基因分型误差引起的。人口子结构也可能导致与HWE的偏差,从而尽量减少这种效果,我们进行了HWE测试(Fisher的确切测试11.)独立地,每个人口单独,并通过每个SV的人口编目HWE不一致(图3A)。
图3. LRGT SVS的HWE过滤状态。

a)在每种人群中通过(固体杆)和失败(轻条)SV的计数。b)计数有多少人群在至少一个人口中失败的SV的HWE测试失败。

我们观察到,在所有5个群体中,有14568人(73%)通过了HWE测试。在任何人群中,有2,904人(14%)没有通过HWE测试。在一些人群中,2636名sv(13%)通过了HWE测试,但不是所有五人(图3b)。在所有5个群体中未能通过HWE测试的SV中,有78%与TRs重叠。在TRs中,通过基因组图的不同路径可能非常相似,这使得目前在段落中使用的比对几乎是随机的,导致了大量的杂合基因型。这表明,为了提高tr -重叠svv的基因分型性能,需要建立不同的图基因分型模型。在去除hwe不一致的svv后,我们注意到在0.5左右的意外AF峰被消除了(图2,实线)。对于部分种群中HWE不一致的14%的SVs,大多数没有显示出极显著的HWE p值,这可能表明这些SVs在少数样本或某些种群中可能存在断点偏差。

混合群体的SV分布

在过滤掉未通过HWE测试的sv后,AF在所有人群中的总体分布是相似的。尽管AF中有这种相似性,但通过hwi传递的SVs基因型剂量的主成分分析(0表示纯合子参考基因型和缺失基因型,1表示杂合子,2表示纯合子替代基因型)揭示了LRGT SVs的群体特异性(图4a)。在第一主成分和第二主成分的二维空间中投影,AFR、EAS、EUR和SAS样本得到了清晰的分离。相反,不同祖先种群之间的抗微生物药物耐药性样本图与混合种群的预期一样。

图4。LRGT sv的人群特异性和功能影响。

a) 1000个通过hwes的基因组样本的PCA双图。b)每个群体中固定sv的数量。c)所有人群中不同功能部件的SV AFs。

我们总共观察到525个SVs,它们在所有5个群体中都是固定的,可能代表参考基因组中的稀有等位基因(图4b)。除此之外,有715辆suv在至少一个群体中是固定的。AFR是最分散的群体,固定svv比其他群体少。结合功能注释,303个固定的sv是外显子的。1638 bp外显子插入UBE2QL1在之前的两项研究中12,13.特别是最近的研究通过混合祖先的所有53,581个排序的个体报道了这种插入13.

我们还根据基因组背景观察到SVS的不同AFS。在外显子,假序和未转换的地区(UTRS)内的SVS具有比内肾内和非基因区域中的较低的AFS。与功能元件(UTRS,外显子)中的更极端的AFS相比,内含子和非基因区域的SVS具有更统一的AF分布(图4c)。所有这些都表明针对SV的纯化选择具有潜在的功能后果7.虽然常见的SV在功能元素中更耗尽,但我们在包括的基因外显影内看到一些常见的SV。TP73(AF = 0.16总体,肿瘤抑制基因),FAM110D(总体上,AF = 0.65,功能才能澄清,可能与细胞周期相关)和OVGP1(AF=0.20,与受精和早期胚胎发育有关)。具体来说,TP73的缺失在亚群体中有非常不同的频率:在AFR中低至0.02,而在EUR和EAS中高于0.20。

结论

在本文中,我们简要回顾了我们为GIAB联盟中的三个样本创建的SV真值集的初始版本。这个真理集证明了使用图方法对高质量svv数据库进行基因型的能力。我们正在进行的工作是扩展这个数据库,以更好的基因分型准确性改进段落。通过在不同的1000个基因组群体中对这些svv进行基因分型,我们证明了即使在缺乏单样本地面真实数据的情况下,群体数据也可以用作质量控制。此外,我们还证明,在我们的ground truth数据中识别的许多外显子svv也在1000个Genome样本中发现,并显示出选择的迹象。在WGS队列中直接使用段落对这些外显子svv进行基因分型可能会进一步帮助我们理解这些svv /基因的生物学特性。

数据和材料的可用性

段落软件公开可用https://github.com/illumina/paragrapha.

Na12878,NA24385和NA24631 PACBIO数据在PRJNA540705,PRJNA529679和PRJNA540706下沉积在SRA中。他们的Illumina数据在PrJeb35491下归存了ena。

龙根重新处理的1000个基因组数据可在https://registry.opendata.aws/ilmn-dragen-1kgp/

参考文献
  1. 魏森费尔德,J., J.西蒙,O.,斯皮茨,F. &柯贝尔,J.基因组结构变异的表型影响:人类疾病的见解。Nat Rev Genet 14,125 - 138(2013)。
  2. Lee, C. & Scherer, S.W.人类基因组拷贝数变异的临床背景。专家Rev Mol Med 12,E8(2010)。
  3. Goodwin S., McPherson J.D. & McCombie, W.R.到世:十年的下一代测序技术。Nat Rev Genet 17,333 - 351(2016)。
  4. 阿什利,E.A.对精密医学。Nat Rev Genet 17,507 - 522(2016)。
  5. Logsdon, g.a., Vollger, M.R. & Eichler, E.E.长读人类基因组测序及其应用。基因组Biol.291(2019)。
  6. Chen S.等。段落:基于图形的结构变体变体基因液,用于短读序列数据。基因组Biol.291(2019)。
  7. 苏曼特等。2504个人类基因组结构变异的综合图谱。自然526,75-81(2015)。
  8. 李,H。一个统计框架,SNP呼叫,突变发现,关联映射和群体遗传参数估计从测序数据。生物信息学27,2987-2993(2011)。
  9. 温格,A.M.等。精确的循环共识长读测序改进了人类基因组的变异检测和组装。NAT BIOTECHNOL.37,1155-1162(2019年)。
  10. 基因组计划,C.等。人类遗传变异的全球参考。自然526年,68 - 74(2015)。
  11. 威金顿,卡特勒,D.J.和阿贝西斯,G.R.关于哈迪-温伯格平衡的精确检验的注释。J是Hum Genet吗76年,887 - 893(2005)。
  12. 谢尔曼,下午等等。通过对910名非洲人后裔的深度测序组装了一个泛基因组。Nat麝猫51,30-35(2019)。
  13. Taliun,D。等。来自NHLBI TOPMed项目的53,831个不同基因组的测序。bioRxiv,563866(2019)。
  14. 楚艾,弗里德曼·答1000个基因组数据集的DRAGEN再分析现在可以在开放数据注册表上获得。亚马逊网络服务,2020.
  15. Bryska-Bishop,M.等。高覆盖全基因组测序扩大的1000个基因组项目队列,包括602三人。bioRxiv,430068(2021)。