跳到内容

脊髓性肌肉萎缩症诊断和载体从全基因组测序数据筛选

小陈和迈克尔Eberle

分享这篇文章

介绍

脊髓性肌萎缩(SMA)是一种常染色体隐性神经肌肉障碍以α运动神经元丢失,导致严重的肌肉无力和萎缩出生后不久1。SMA后婴儿死亡的主要遗传导致囊性纤维化。SMA的发病率是1 6000 - 10000年出生、生活和载波频率是40 - 80在不同的民族2 - 4。早期发现SMA可以长期的生活质量至关重要,因为两个早期治疗的可用性,Nusinersen5和Zolgensma6已获得FDA批准SMA的改善症状。

致病基因,SMN1,连同其假字SMN2,位于5号染色体上的一个~ 2 mb区域有大量复杂的节段和反向节段重复。SMN2是由一个祖先的基因重复是独特的人类血统吗7。基因组周边地区SMN1SMN2受到不平等互换和基因转换,导致变量拷贝数(中枢神经系统)SMN1SMN2。重要的是,SMN2> 99.9%的序列的身份SMN1的一个基础差异,c。840C>T in exon 7, has a critical functional consequence. By interrupting a splicing enhancer, c.840T promotes skipping of exon 7, resulting in the vast majority ofSMN2派生的成绩单是不稳定的,而不是功能齐全8。大约有95%的SMA biallelic缺席的情况下结果功能。840 c核苷酸由一个删除造成的SMN1或基因转换SMN2(c.840T)9。SMA剩余5%的情况下,病人也有其他致病变种SMN110。SMN2可以产生少量的功能蛋白质,和数量SMN2册个人与疾病严重程度呈负相关11

由于高发病率和疾病严重程度,全民SMA筛查是推荐的美国大学医学遗传学。筛查SMA的关键是:1)确定的拷贝数SMN1SMA诊断和运营商测试和2)拷贝数的确定SMN2临床分类和预后。传统上,SMA测试和载波测试完成基于聚合酶链反应(PCR)检测,如定量PCR (qPCR)多路复用ligation-dependent探测器放大(MLPA)和数字PCR。这些方法主要是确定的拷贝数SMN1基于c。840C>T site that differs betweenSMN1SMN2。使SMA测试与WGS精密医学活动中受益,但它面临的挑战包括几乎完美的序列之间的身份SMN1SMN2,这两个基因之间频繁的基因转换导致混合基因。这些挑战信息学方法需求专门设计用于本地区的克服困难。

为了解决这个问题,我们开发了SMNCopyNumberCaller12一个新颖的方法,检测的CNSMN1SMN2基于WGS数据。这种方法是使用人口1000人基因工程的数据13(1 kgp)。在我们发布的这个方法,我们的特点SMN1SMN212747年,确定基因组1568个样本SMN1收益或亏损和6615个样本SMN2收益或损失,计算泛种族的载波频率为2%,与之前的研究一致。此外,99.8%的SMN1和99.7%的SMN2CN调用同意正交方法,召回运营商SMA为100%和97.8%,和100%的精度对SMA和运营商。这个调用者使SMA测试在新生儿护理提供了全面的测试和一个精确的载波WGS测序项目的筛选工具。

在这里,我们描述了如何通过使用多民族样品,我们能够识别更高的遗传变异在非洲人口和排除变量不能可靠地区别的网站SMN1SMN2在所有人口,优化精度。这强调了使用种族多样化的人口在开发新型信息化的重要性的方法。此外,我们描述和提供一个可视化工具产生的静态图像,允许用户查看证据支持这些基因拷贝数调用。这些信息将成为临床实验室必不可少的工具,希望实现WGS-based SMA调用。

SMNCopyNumberCaller

解决的挑战在两个基因序列相似性高,SMNCopyNumberCaller首先总结拷贝数的计算SMN1SMN2,集体称为SMN,通过分析基因测序读的报道一致。因为存在一个截短形式的SMN2,被称为SMN2∆7 - 8外显子7 - 8删除,我们计算完整的拷贝数和截断SMN形式的基因分为两个区域:除以22.2 kb区域,包括外显子1 - 6和6.3 kb区域,包括外显子7 - 8。外显子7 - 8的CN计算区域提供完整的数量SMN基因。和样品SMN2∆7 - 8有更高的CN外显子1 - 6地区的外显子7 - 8的CN地区相比,和这种差异代表了CN的SMN2∆7 - 8(图1)。

复制总数量和完好无损SMN (SMN1 + SMN2)计算从阅读深度
图1所示。复制总数量和完好无损SMN(SMN1+SMN2)计算从阅读深度

散点图和直方图SMN(SMN1+SMN2)拷贝数(x轴,称为外显子1 - 6的阅读深度)和完整SMN拷贝数(y轴,叫做读深度外显子7 - 8)的人口。集群的对角线表示基因的存在下的删除exon7-8(即。SMN2∆7 - 8)。

后计算总结拷贝数,我们区分SMN1SMN2使用支持读计数基地之间的差异SMN1SMN2。的个人CNSMN1(SMN2在每个站点通过考虑求和计算SMNCN的分数SMN1(SMN2)支持读取的SMN1+SMN2支持读取。在调用者的发展,我们的中枢神经系统SMN1SMN216个基地不同网站之间,从参考基因组中提取1 kgp样本,并确定如果CN要求每个职位整合与CN调用c。840 c > T接头变体网站。调用的一致性有显著的区别在非洲和非洲以外的人群(图2)。不包括非洲样本,有13个站点已经高(> 85%)CN剪接变体网站一致。相反,非洲样品只有七个网站有很高的CN一致性的剪接变体网站,在所有网站和一致性值低于在非洲以外的人群。这是符合within-gene变化在许多这样的位置在非洲人口。分析强调的重要性使用种族多样化的人口在开发新型信息化方法解决困难的临床相关的基因组区域。

我们选择了八SMN1/ 2基础差异,包括拼接变体网站和七个位置,高度整合的剪接变体网站在非洲和非洲以外的人群。通过选择这些网站,这个调用者应该执行一致,民族独立的。SMNCopyNumberCaller使SMN1SMN2CN调用基于共识的CN调用在八个选定的网站。

图2。多民族人口分析显示差异
图2。多民族人口分析显示差异

比例的样本显示拷贝数(CN)与c调用协议。840 c > T 16SMN1- - - - - -SMN2在非洲和非洲以外的人口基础不同的网站。网站13 *是c。840C>T splice variant site. The black horizontal line denotes 85% concordance. To work for all populations, the SMNCopyNumberCaller just uses the eight sites that are >85% concordant in both African and non-African populations (i.e. 7, 8, 10, 11, 12, 13, 14 & 15). Coordinates (hg38, chr5) of these 8 sites are: 70950493, 70950966, 70951392, 70951463, 70951897, 70951946, 70952094 and 70952209.

调用者的结果可视化

变体调用在临床设置的一个重要组成部分是需要审查证据当签署临床报告。SMNCopyNumberCaller发布以来,我们已经开发出一种可视化工具产生表示数据的静态图像和QC的调用(图3)。总结中枢神经系统的总(外显子1 - 6,图3 a)和完整的(外显子7 - 8,图3 b)SMN(SMN1+SMN2)对人口分布绘制。的区别,完好无损SMNCN代表的CNSMN2∆7 - 8。个人的中枢神经系统SMN1SMN2计算的基础上,总结完整的CN和支持阅读数量在八个基地之间的差异SMN1SMN2(# 7 - 8 # 10 - 15、图3 c)。图3 d提供了一个粗略的估计SMN1SMN2复制数字纯粹基于区分网站读计数。

图3。SMNCopyNumberCaller的可视化结果,使用HG03458作为一个例子
图3。SMNCopyNumberCaller的可视化结果,使用HG03458作为一个例子

A / B。原始深度值(竖线)对1 kgp人口样本SMNCN (A)和完整SMNCN (B)。C。生CN值SMN1SMN28点网站(# 7 - 8 # 10 - 15)用于确定共识。原始的CNSMN1(SMN2)计算每个站点的CN完好无损SMN次的分数SMN1(SMN2)支持读计数SMN1+SMN2支持读计数。* 13是拼接变体网站。D。生读计数SMN1SMN2y轴右侧所示。y轴左边显示了CN的粗略计算,估计的阅读数除以平均单倍体样本的深度。

性能验证

为了演示这种方法的准确性,我们比较CN调用使用数字PCR和MLPA WGS-based调用和显示的一致性为99.8%SMN199.7%,SMN2,记得运营商SMA为100%和97.8%,和100%的精度对SMA和运营商(表1)。

表1。验证样品与已知SMN1 / SMN2复制数据。
CN通过正交法 整合 不和谐的 协议
SMN1 0 64年 64年 0 100.0%
1 45 44 1 97.8%
2 897年 897年 0 100.0%
3 174年 174年 0 100.0%
4 43 43 0 100.0%
6 1 0 1 0.0%
1224年 1222年 2 99.8%
SMN2 0 117年 117年 0 100.0%
1 486年 465年 1 99.8%
2 541年 539年 2 99.6%
3 60 60 0 100.0%
4 9 8 1 88.9%
1193年 1189年 4 99.7%
SMN2∆7 - 8 0 1089年 1089年 0 100.0%
1 80年 80年 0 100.0%
2 4 4 0 100.0%
1173年 1173年 0 100.0%

拷贝数的SMN1,SMN2SMN2∆7 - 8由人口

我们应用SMNCopyNumberCaller 2504样本1000人基因工程无关的(1 kgp)和10243年样本NIHR生物无关的项目14人口分布的报告SMN1SMN2复制数据(图4)。SMA的载波频率(与一份样品SMN1使用这种方法)同意先前报道的pcr研究2、4。特别的可变性SMN1拷贝数远低于SMN2拷贝数在大多数人口,非洲人高得多SMN1拷贝数比其他人群。

图4。分布的SMN1 / SMN2 SMN2Δ7-8复制不同人群的数量。
图4。的分布SMN1 / SMN2 / SMN2Δ7-8复制不同人群的数量。

直方图的分布SMN1,SMN2,SMN2Δ7-8副本数量在五个人口1 kgp和国家卫生研究所(NIHR)生物群体。

总结

我们SMNCopyNumberCaller可以用来识别载体和SMA的状态的影响,使SMA测试在新生儿护理提供了全面的测试和一个精确的载波WGS测序项目的筛选工具。而存在困难的地区在正常的基因组WGS管道不交付变体电话,这里我们展示能力应用WGS搭配了一个有针对性的信息学方法解决这样一个困难的地区。WGS提供了一个宝贵的机会来评估整个基因组遗传变异和更有针对性的信息解决方案的持续发展困难的地区与WGS数据将有助于个性化医疗的承诺更近一步。

确认

感谢我们的合作者Alba Sanchis-Juan,考特尼法语,伊莎贝尔·德龙和露西雷蒙德在剑桥大学,安德鲁·康奈尔和马修Butchbach穆尔阿尔弗雷德儿童医院,卓娅金斯伯里,Aditi拉,亚伦Halpern,瑞安·塔夫特和大卫·本特利Illumina公司。我们感谢安德鲁·沃伦Illumina公司开发的可视化工具。

引用
  1. 卢恩先生,王CH。脊髓性肌肉萎缩症《柳叶刀》。2008;371 (9630):2120 - 2133。
  2. 苏格曼EA, Nagan N,朱H, Akmaev VR,周Z, Rohlfs EM, et al。泛种族载体筛查和产前诊断脊髓性肌肉萎缩症:临床实验室分析> 72 400标本。欧元J哼麝猫。2012;20(1):新。
  3. 麦克唐纳,周,汉密尔顿,D, Kuhle年代。SMA载波测试:一个荟萃分析族群的测试性能的差异。Prenat成岩作用。2014年,34 (12):1219 - 1226。
  4. 公元前Hendrickson, Donohoe C, Akmaev VR,苏格曼EA Labrousse P, Boguslavskiy L,等。的差异SMN1民族等位基因频率在北美。J地中海麝猫。2009;46 (9):641 - 644。
  5. 芬克尔RS、奇CA Vajsar J,天JW,蒙特斯J, De Vivo,等。治疗与nusinersen infantile-onset脊髓性肌肉萎缩症:一个阶段2,非盲、剂量递增的研究。《柳叶刀》。2016,388 (10063):3017 - 3026。
  6. Mendell说小Al-Zaidy年代,壳牌R,阿诺德•WD Rodino-Klapac LR、TW之前,et al。单剂gene-replacement治疗脊髓性肌萎缩郑传经地中海J。2017;377 (18);1713 - 1722。
  7. Simard LR Rochette CF,吉尔伯特N。SMN基因重复和的出现SMN2基因发生在不同的人种:SMN2是独一无二的智人。哼麝猫。2001,108 (3):255 - 266。
  8. Lorson CL, Hahnen E, Androphy EJ, Wirth B。的单核苷酸SMN基因调节拼接和负责脊髓性肌肉萎缩症。《美国国家科学院刊年代。1999,96 (11):6307 - 6311。
  9. Wirth B。一个更新的突变谱运动神经元生存基因(SMN1)在常染色体隐性脊髓性肌肉萎缩症(SMA)。哼Mutat。2000;15 (3):228 - 237。
  10. 城镇啊,比蒂CE。脊髓性肌肉萎缩症:为什么低水平的生存运动神经元蛋白质使运动神经元病了吗?Nat转速>。2009;10 (8):597 - 609。
  11. Butchbach我。运动神经元生存基因拷贝数变化:对脊髓性肌肉萎缩症和其他神经退行性疾病的影响。摩尔Biosci前面。2016;7。
  12. 陈X, Sanchis-Juan,法国CE、康奈尔AJ,德龙,金斯伯里Z,等。脊髓性肌肉萎缩症诊断和载体从基因组测序数据筛选。地中海麝猫。2020;22 (5):945 - 953。
  13. 1000人基因工程财团。一个全球参考人类遗传变异。大自然。2015,526 (7571):68 - 74。
  14. Turro E, Astle WJ Megy K,伯爵,格林D, Shamardina O, et al。全基因组测序的罕见疾病患者在一个国家的卫生系统。大自然。2020,583 (7814):96 - 102。