跳到内容

基于图模型和群体信息的结构变异精确基因分型

陈赛和Michael A. Eberle

分享这篇文章

介绍

结构变异(SVs)对个体之间的核苷酸序列差异有很大的影响,并与许多人类疾病有关1、2.然而,精确地检测SVS仍然是挑战,因为与参考基因组的显着偏差可以难以进行对准,特别是对于短读全基因组测序(WGS)数据3..虽然长读测序技术的最近进步使得它们更容易检测到SVS,但它们的应用受到成本,产量的限制,并且需要大量的DNA(每个基因组〜5ug,而Illumina PCR-Featoration的〜25ng)4..或者,科学家可以在群体水平上研究SV,通过使用从参考SV数据库构建的图表方法对已知变异进行基因分型,该数据库可以使用多种技术组合构建5..随着这些参考数据库的发展,种群测序数据可以用更新的信息重新进行基因分型,以更全面地了解SV变异。

在这篇文章中,我们评估了我们基于图的基因分型器(Paragraph)的基因分型性能,该基因分型器能够在大量用短读序列测序的样本中对已知的svv进行基因分型。段落结构的有向无环图代表参考等位基因和任何可能的替代路径的等位基因,重新读取这个序列图和基因型SV的基础上重新读取(图1)。我们应用段落一套breakpoint-accurate SV真理,是由三个样品测序读长6..除了通过基因分型进行基因分型来构建真实数据的样品来评估精度外,我们在2,501个无关个体和使用人口遗传学指标的1000个基因组人群中进行了基因分类,以量化SV呼叫的准确性7、15.哈迪-温伯格平衡(HWE)等指标使我们能够研究总体变异的总体表现,并识别仅通过测试少数样本可能无法检测到的可能的系统错误8..使用1000个基因组样本,我们证明人口级基因分型统计可以帮助清理呼叫。我们进一步量化了不同种族中这些SVS的人口分布,并确定了功能基因组元素中纯化选择的签名。

结果

建立SV真相

我们从包含在Genome in a Bottle (GIAB)项目数据中的三个样本开始:NA12878 (HG001)、NA24385 (HG002)和NA24631 (HG005)(数据和材料的可用性)。使用太平洋生物科学(PacBio) Sequel系统为这些样本生成长读序列数据。这些样本的测序深度平均为30倍,HiFi读取深度约为11000碱基对(bp)。根据这一数据,我们使用PBSV称其为SVs (50bp+)9..在合并这些svv后,我们鉴定出38709个独特的常染色体svv。因为段落被设计用于具有单个SV的区域,所以我们排除了观测到多个SV的区域(例如,具有不同断点的重叠或附近的SV)。这就留下了20108个SVs(9,238个缺失和10.870个插入)作为我们的长读ground truth (LRGT),用于检测和群体基因分型。关于这些sv的完整描述可以在这里找到6.

单样本召回和精度

图1.段落中实施的SV基因分型工作流程概述。

为了评估这些svv的基因分型性能,我们对NA12878 (63x)、NA24385 (35x)和NA24631 (40x)的短读数据进行了LRGT svv的基因分型,使用我们的图形基因分型(图1)。6..由于在长读SV调用者中对纯合与杂合等位基因分类的准确性尚未得到系统评估,我们的测试重点是变异的存在/缺失,而不是基因分型一致性。因此,我们将一个变异定义为真阳性(TP),如果段落调用一个非参照基因型,其中一个SV也存在于LRGT中,如果段落调用一个非参照等位基因,而LRGT在该样本中不包含一个变异,则为假阳性(FP)。根据这个定义,LRGT有38239个作为TPs的备选基因型和2285个用于计算FPs的参考基因型。在三个样本的独立测试中平均,段落的召回率为0.84,精确度为0.88(表1)6.

类型

#真理TPs

回忆

#真理FPs

精度

F分数

删除

16936年

0.84

10,778

0.92

0.88

插入

21,303

0.88

11307年

0.89

0.88

表1。段落的性能,在LRGT上测试

通过研究这些有问题的呼叫,我们发现59%的FNs和77%的FPs发生在串联重复(TRs)内重叠的svv中。在TRs之外的svv中,段落的召回率(0.90)远高于在TRs内的svv(0.79)。我们还发现,较小(<200bp)的SVs比较大(> 1000 bp)的SVs(~35%)更有可能在TRs(~75%)内。此外,在我们的原始论文中,我们表明SV断点的错误(例如错误的位置或大小)将对段落的性能产生负面影响。

2501个不同人类基因组的基因分型

基因型的结果来自于一个群体中许多不相关的样本,这使我们能够利用群体遗传学测量(如HWE)来评估一个变异呼叫者的准确性,即使在没有基础真实数据存在的情况下也是如此。为了证明段落基因分型能力,也为了研究群体统计,我们从公开的1000个基因组测序资源中,对2501个不相关的个体(不包括NA24385或NA24631)进行LRGT svv的基因分型。该数据集代表了一个种族多样化的人口,其中660名非洲人(AFR), 347名美国人(AMR), 501名东亚人(EAS), 489名南亚人(SAS)和504名欧洲人(EUR)。10..在Illumina Novaseq平台上测序所有样品,其中150bp成对端读入至少30倍深度。使用我们的Dragen V3.5.7b工作流程处理排序数据14.

图2。LRGT svv在1000个基因组群体中的等位基因频率分布。

虚线:所有suv。实线:至少在一个群体中通过HWE测试的suv。

我们总结了每个人群中LRGT SV的等位基因频率(AF)分布,然后使用HWE识别与人口遗传学期望不一致的SVS(图2)。虽然基因型频率可能偏离HWE期望由于选择而导致HWE期望,来自HWE的偏差可能是由基因分型误差引起的。人口子结构也可能导致与HWE的偏差,从而最大限度地减少这种效果,我们进行了HWE测试(Fisher的确切测试11.),并按每个SV按种群分类HWE的不一致性(图3a)。
图3. LRGT SVS的HWE过滤状态。

a)在每种人群中通过(固体杆)和失败(轻条)svs的计数。b)计数有多少人群失败的HWE测试在至少一个人口中失败的SV的SV。

我们观察到,SVS的14,568(73%)通过所有五个人群通过HWE测试。2,904(14%)的SVS不会在任何人口中通过HWE测试。2,636(13%)SVS通过一些人群的HWE测试,但不是全部五(图3B)。在所有五个人群中失败的SV失败,78%重叠TRS。在TRS中,通过基因组图的不同路径可以非常相似,并且使得在段落中采用几乎随机的电流对准,导致大量的杂合学基因型。这表明需要不同的图形基因分型模型来改善TR重叠SVS的基因分型性能。在去除HWE - 不一致的SV后,我们注意到,消除了意外的AF峰值约为0.5(图2,实线)。对于在某些人群中的HWE - 不一致的14%SV中,大多数人都没有显示出极明显的HWE P值,可能表明这些SV可以在少数样品中或某些人群中具有断点偏差。

SV在混合种群中的分布

在过滤掉未通过HWE测试的sv后,AF在所有人群中的总体分布是相似的。尽管AF中有这种相似性,但通过hwi传递的SVs基因型剂量的主成分分析(0表示纯合子参考基因型和缺失基因型,1表示杂合子,2表示纯合子替代基因型)揭示了LRGT SVs的群体特异性(图4a)。在第一主成分和第二主成分的二维空间中投影,AFR、EAS、EUR和SAS样本得到了清晰的分离。相反,不同祖先种群之间的抗微生物药物耐药性样本图与混合种群的预期一样。

图4。LRGT sv的人群特异性和功能影响。

a)1000个基因组样品的PCA双量,具有HWE通过SVS。b)每种人口中固定SV的计数。c)所有群体不同功能元素的SV AFS。

我们总共观察到525个SVs,它们在所有5个群体中都是固定的,可能代表参考基因组中的稀有等位基因(图4b)。除此之外,有715辆suv在至少一个群体中是固定的。AFR是最分散的群体,固定svv比其他群体少。结合功能注释,303个固定的sv是外显子的。1638 bp外显子插入UBE2QL1在之前的两项研究中12,13.特别是,最近的旋转研究报告了所有53,581个中的混合祖先的单独的单独的13.

我们还基于基因组背景观察了SV的不同AFS。在外显子,假序和未转换的地区(UTRS)内的SV有一般而言,具有低于内肾内和非基因区域的AFS。与功能元件(UTRS,外显子)中的更极端的AF相比,内含子和基因组区域中的SVS具有更均匀的AF分布(图4c)。所有这些都表明对具有潜在功能后果的SV净化选择7..虽然常见的svv在功能元件上更衰竭,但我们确实看到一些常见的svv在基因外显子内包括TP73(AF = 0.16总体,肿瘤抑制基因),FAM110D(AF=0.65 overall,功能尚待阐明,可能与细胞周期有关)OVGP1(AF=0.20,与受精和早期胚胎发育有关)。具体来说,TP73的缺失在亚群体中有非常不同的频率:在AFR中低至0.02,而在EUR和EAS中高于0.20。

结论

在本文中,我们简要回顾了我们为GIAB联盟中的三个样本创建的SV真值集的初始版本。这个真理集证明了使用图方法对高质量svv数据库进行基因型的能力。我们正在进行的工作是扩展这个数据库,以更好的基因分型准确性改进段落。通过在不同的1000个基因组群体中对这些svv进行基因分型,我们证明了即使在缺乏单样本地面真实数据的情况下,群体数据也可以用作质量控制。此外,我们还证明,在我们的ground truth数据中识别的许多外显子svv也在1000个Genome样本中发现,并显示出选择的迹象。在WGS队列中直接使用段落对这些外显子svv进行基因分型可能会进一步帮助我们理解这些svv /基因的生物学特性。

数据和材料的可用性

段落软件公开可用https://github.com/illumina/paragrapha.

Na12878,NA24385和NA24631 PACBIO数据在PRJNA540705,PRJNA529679和PRJNA540706下沉积在SRA下。他们的Illumina数据在PrJeb35491下沉积在ena中。

龙根重新处理的1000个基因组数据可在https://registry.opendata.aws/ilmn-dragen-1kgp/

参考文献
  1. 魏森费尔德,J., J.西蒙,O.,斯皮茨,F. &柯贝尔,J.基因组结构变异的表型影响:来自和对人类疾病的见解。Nat Rev Genet 14,125 - 138(2013)。
  2. Lee,C.&Scherer,S.W.人类基因组拷贝数变异的临床背景。专家Rev Mol Med 12,E8(2010)。
  3. Goodwin S., McPherson J.D. & McCombie, W.R.未来十年:下一代测序技术。Nat Rev Genet 17,333 - 351(2016)。
  4. 希礼,电子艺界对精密医学。Nat Rev Genet 17,507 - 522(2016)。
  5. Logsdon, g.a., Vollger, M.R. & Eichler, E.E.长读人类基因组测序及其应用。基因组医学杂志291(2019)。
  6. Chen S.等。段落:用于短读序列数据的基于图的结构变体变体基因键。基因组医学杂志291(2019)。
  7. 苏曼特等。2504个人类基因组结构变异的综合图谱。自然526年,75 - 81(2015)。
  8. 李,H。一个统计框架,SNP呼叫,突变发现,关联映射和群体遗传参数估计从测序数据。生物信息学27,2987-2993(2011)。
  9. 温格,A.M.等。精确的循环共识长读测序改进了人类基因组的变异检测和组装。生物科技Nat》37岁,1155 - 1162(2019)。
  10. 基因组计划,C.等。人类遗传变异的全局参考。自然526,68-74(2015)。
  11. 威金顿,卡特勒,D.J.和阿贝西斯,G.R.关于哈迪-温伯格平衡的精确检验的注释。我是j hum genet76年,887 - 893(2005)。
  12. 谢尔曼,下午等等。通过对910名非洲人后裔的深度测序组装了一个泛基因组。NAT Genet.51岁- 35(2019)。
  13. Taliun,D。等。测序来自NHLBI TOPMED程序的53,831种不同基因组。生物XIV,563866(2019)。
  14. 朱e,弗里德曼A。1000个基因组数据集的DRAGEN再分析现在可以在开放数据注册表上获得。亚马逊网络服务,2020。
  15. Bryska-Bishop, M.等。扩展的1000个基因组项目队列的高覆盖全基因组测序,包括602个三联体。生物XIV,430068(2021)。