跳到内容

来自全基因组测序数据的脊髓性肌肉萎缩诊断和载体筛选

萧晨和迈克尔一只埃伯勒

分享这篇文章

介绍

脊柱肌肉萎缩(SMA),一种常染色体隐性神经肌病,其特征在于α电机神经元的损失,导致出生后或不久呈现严重的肌肉无力和萎缩1.SMA是囊性纤维化后婴儿死亡的主要遗传原因。SMA的发病率为6000-10,000个活产,载波频率为1:40-80,不同的族群2-4.由于两种早期治疗的空间,血清索伦,SMA的早期检测对于长期生活质量至关重要5和zolgensma6,已收到FDA批准对SMA症状的改善。

导致疾病的基因,SMN1.和它的帕拉洛一起SMN2.,驻留在染色体5上的〜2MB区域,具有大量复杂的节段性和倒置的节段重复。SMN2.是由人类谱系独有的祖先基因重复而创造的7.周围的基因组区域SMN1.SMN2.是受不平等的交叉和基因转换,导致可变拷贝数(CNs)SMN1.SMN2..重要的,SMN2.有> 99.9%的序列同一性SMN1.和外显子7中的基本差异C.840C> T中的一个具有重要的功能后果。通过中断剪接增强剂,C.840T促进外显子7的跳跃,导致绝大多数SMN2.- 不稳定的成绩单不稳定,并且不完全正常8.大约95%的SMA病例因缺失引起的官能C.840C核苷酸的双胞胎不存在而导致SMN1.或基因转换为SMN2.(C.840T)9.在剩余5%的SMA病例中,患者还具有其他致病性变异SMN1.10..SMN2可以产生少量的功能蛋白,以及数量SMN2.个人中的副本与疾病严重程度相反11.

由于高发病率和疾病严重程度,美国医学遗传学学院建议人群宽的SMA筛查。筛选SMA的关键是:1)确定副本数量SMN1.用于SMA诊断和运营商测试和2)确定副本数量SMN2.用于临床分类和预后。传统上,SMA测试和载体测试是通过基于聚合酶链反应(PCR)的测定来完成的,例如定量PCR(QPCR),多重连接依赖性探针扩增(MLPA)和数字PCR。这些方法主要确定副本数SMN1.基于c.840C>T位点的不同SMN1.SMN2..通过WG启用SMA测试将极大地利用精密医学举措,但它面临着挑战,包括几乎完美的序列同一性SMN1.SMN2.并且两种基因之间的频繁基因转化导致杂种基因。这些挑战需要一个专门旨在克服该地区困难的信息方法。

要解决这个问题,我们开发了smncopynumbercaller12.,一种新的方法,检测的CN两者SMN1.SMN2.基于WGS数据。使用来自1000个基因组项目的人口数据开发了这种方法13.(1KGP)。在我们发表此方法的情况下,我们表征了SMN1.SMN2.在12,747个基因组中,确定了1568个样品SMN1.得失与6615样同SMN2.收益或损失,并计算泛族载体频率为2%,与先前的研究一致。此外,我们的99.8%SMN1.和99.7%的SMN2.CN呼叫同意正交方法,召回SMA的100%和载体的97.8%,并且SMA和载体的精度为100%。该来电者可以在新生儿护理和WGS测序项目中提供SMA测试作为新生儿护理的综合测试和精确的载波筛选工具。

在这里,我们描述如何通过使用多民族样本,我们能够识别非洲群体中的更高的遗传变异,排除不能可靠地区分的可变地点SMN1.SMN2.,优化所有人口的准确性。这突出了在开发新颖的信息方法时使用种族多样化的人群的重要性。此外,我们描述并提出了一种可视化工具,它产生静态图像,允许用户查看支持在这些基因中所做的副本号码的证据。这些信息将是希望实施基于WGS的SMA呼叫的临床实验室的重要工具。

SMNCopyNumberCaller

为了解决整个两个基因的高序列相似性的挑战,Smncopynumbercaller首先计算总结副本数SMN1.SMN2.,集体称为SMN.,通过分析与任一基因对齐的读数的测序覆盖范围。由于存在截断形式SMN2.,称为SMN2∆7 - 8,有外显子7-8删除,我们计算完整和截断的副本数量SMN.将基因分为两个区域:22.2kb的区域包括外显子1-6和6.3kb的区域包括外显子7-8。由外显子7-8区域计算的CN提供了完整的数目SMN.基因。样品SMN2∆7 - 8与外显子7-8区域的CN相比具有更高的外显子1-6区域,并且该差异代表CNSMN2∆7 - 8(图1)。

总SMN和完整SMN (SMN1+SMN2)的拷贝数根据读取深度计算
图1.复制总数和完整的编号SMN.SMN1.+SMN2.)由读取深度计算

散点图和总直方图SMN.SMN1.+SMN2.)复制号码(X轴,通过EXEN 1-6中的读取深度调用)并完整SMN.在人口中复制数字(Y轴,通过读取深度调用)。对角线以下的簇表示缺失Exon7-8的基因(即SMN2∆7 - 8)。

计算总结副本号后,我们区分SMN1.SMN2.在基础差异之间使用支持读数计数SMN1.SMN2..个人cnSMN1.SMN2.)的计算,须考虑到总价SMN.CN和分数SMN1.SMN2.)支持读取所有人SMN1.+SMN2.支持阅读。在调用者的发展期间,我们称之为CNSSMN1.SMN2.在它们之间的16个基差位点,从参考基因组中提取,在1kGP样品中,并确定每个位置的CN呼叫是否在C.840C> T均型位点上的CN呼叫均匀。非洲和非非洲群体的呼叫的一致性之间存在显着差异(图2)。不包括非洲样品,有13个位点具有高(> 85%)CN与剪接变体部位的一致性。相反,对于非洲样品,只有七个位点与剪接变体部位有高CN的一致性,并且在所有地点都比非非洲群体较低。这与非洲人群中许多职位的内部内变异一致。这种分析突出了在制定新颖的信息方法时使用种族各种群体的重要性,以解决基因组的困难临床相关区域。

我们选择了八SMN1./ 2基本差异,包括剪接变体部位和非洲和非非洲人群的剪接变体部位高度一致的七个位置。通过选择这些网站,这个呼叫者应该始终如一地执行,独立于种族。smncopynumbercaller做了SMN1.SMN2.CN呼叫基于在八个选定地点的CN呼叫的共识。

图2.多种族分析显示人口之间的差异
图2.多种族分析显示人口之间的差异

显示拷贝数(CN)呼叫协议的样本的百分比与C.840C> T跨越16SMN1.- - - - - -SMN2.非洲和非非洲人口的基本差异网站。Site 13 *是C.840C> T剪接变体部位。黑色水平线表示85%的一致性。为了为所有人群工作,Smncopynumbercaller只使用非洲和非非洲人口(即7,8,10,11,12,13,14&15)中的八个网站。这8个站点的坐标(HG38,CHR5)是:70950493,70950966,70951392,70951463,70951897,70951946,70951946,70951946,70952094和70952209。

可视化呼叫者结果

临床环境中变体呼叫的重要组成部分是在签署临床报告时需要审查支持证据。自Smncopynumbercaller的发布以来,我们开发了一种可视化工具,以产生表示数据和QC呼叫的静态图像(图3)。总共(外显子1-6,图3A)和完整的总计CNS(外显子7-8,图3B)SMN.SMN1.+SMN2.)拟征收人口分布。总和完整之间的差异SMN.CN代表CNSMN2.∆7 - 8。个人的中枢神经系统SMN1.SMN2.基于总结完整的CN和八个基础差异的支持读数计算SMN1.SMN2.(#7-8和#10-15,图3c)。图3d提供了粗略的估计SMN1.SMN2.纯粹在识别站点的读数上复制数字。

图3.使用HG03458作为示例,使用HG03458可视化Smncopynumbercaller结果
图3.使用HG03458作为示例,使用HG03458可视化Smncopynumbercaller结果

A / B。原始深度值(垂线)与1kGP总体样本的总数SMN.CN (A)及完好无损SMN.CN(b)。C。原始CN值SMN1.SMN2.在8个站点(#7-8,#10-15),用于确定共识。原始CNSMN1.SMN2.),则计算为完整的CNSMN.乘以SMN1.SMN2.)支持读取计数SMN1.+SMN2.支持读计数。*13是剪接变异位点。D。原始读数计数SMN1.SMN2.显示在右Y轴上。左Y轴显示CN的粗略计算,由读数除以样品的中值单倍体深度的读数。

性能验证

为了展示这种方法的准确性,我们使用基于WGS的呼叫使用数字PCR和MLPA进行比较CN呼叫,并表现出99.8%的一致性SMN1.99.7%SMN2.召回SMA的100%和载体的97.8%,以及SMA和载体的精度为100%(表1)。

表1。对已知SMN1/SMN2拷贝号的样品进行验证。
CN通过正交方法 总计 一致 不和谐的 协议
SMN1. 0 64. 64. 0 100.0%
1 45. 44. 1 97.8%
2 897. 897. 0 100.0%
3. 174. 174. 0 100.0%
4 43. 43. 0 100.0%
6 1 0 1 0.0%
总计 1224 1222 2 99.8%
SMN2. 0 117. 117. 0 100.0%
1 486. 465. 1 99.8%
2 541. 539. 2 99.6%
3. 60. 60. 0 100.0%
4 9 8 1 88.9%
总计 1193. 1189. 4 99.7%
SMN2∆7 - 8 0 1089. 1089. 0 100.0%
1 80 80 0 100.0%
2 4 4 0 100.0%
总计 1173 1173 0 100.0%

副本号码SMN1.SMN2.SMN2∆7 - 8人口

我们将smncopynumbercaller从1000个基因组项目(1kgp)和10,243个无关的样本中从NIHR Bioresource项目中应用了2504个不相关的样本14.报告…的人口分布SMN1.SMN2.复制数字(图4)。SMA的载波频率(样品有一个副本SMN1.)所采用的方法与以往基于pcr的研究报告一致2,4.特别是,变异性SMN1.拷贝数远低于SMN2.大多数人群中的副本号码,非洲人有更高的SMN1.副本数量比其他群体。

图4.分布SMN1 / SMN2 / SMN2Δ7-8不同人群的拷贝数。
图4.分布SMN1 / SMN2 / SMN2Δ7-8不同人群的拷贝数。

分布的直方图SMN1.SMN2., 和SMN2.Δ7-8拷贝数在5个人群的1kGP和国家卫生研究所(NIHR)生物资源队列。

总结

我们的smncopynumbercaller可用于识别SMA的载波和受影响状态,使SMA测试能够作为新生儿护理和WGS测序项目中精确的载体筛选工具提供综合测试。虽然基因组存在困难的区域,其中正常的WGS管道不提供变体调用,但在这里我们展示了应用WGS与目标信息学方法配对的能力来解决一个这样的困难区域。WGS提供了一个有价值的机会,用于评估遗传变异的整个基因组,并继续开发更多有针对性的信息学与WGS数据的困难区域的解决方案,将有助于使个性化医学的承诺更接近现实的一步。

致谢

我们感谢Cambridge,Andrew Connell大学的Courtney Frenchiss-Juan,Courtney Frenchis,Isabelle Delon和Lucy Raymond,Andrew Connell和Matthew Butchbach在Nemours Alfred I.儿童杜邦医院,以及Zoya Kingsbury,Aditi Chawla,Aaron Halpern,瑞安塔夫夫特和大卫·宾利在Illumina。我们感谢Andrew Warren在Illumina开发可视化工具。

参考文献
  1. Lunn Mr,Wang Ch。脊髓肌肉萎缩柳叶刀。2008;371(9630):2120-2133。
  2. 朱海峰,周志刚,周志刚,等。潘民族载体筛查和产前诊断脊柱肌萎缩:> 72 400标本的临床实验室分析。EUR J HUM Genet。2012; 20(1):27-32。
  3. 麦克唐纳,汉密尔顿,D,库勒。SMA载体测试:族群测试性能差异的meta分析。Prenat诊断。2014年,34(12):1219 - 1226。
  4. Hendrickson BC,Donohoe C,Akmaev VR,Sugarman EA,Labrousse P,Boguslavskiy L等。差异SMN1.等位基因频率之间的种族在北美。J地中海麝猫。2009; 46(9): 641 - 644。
  5. Finkel Rs,Chiriboga Ca,Vajsar J,Day JW,Montes J,DeVivo DC等。nusinersen治疗婴儿起病性脊髓性肌肉萎缩:一项2期开放标签剂量递增研究柳叶刀。2016; 388(10063):3017-3026。
  6. Mendell JR,Al-Zaidy S,Shell R,Arnold WD,Rodino-Klapac LR,先前TW等。脊髓肌萎缩的单剂量基因替代疗法英国医学杂志。2017; 377(18); 1713-1722。
  7. Rochette CF,吉尔伯特N,SIMARD LR。SMN.基因重复和出现的SMN2.基因发生在不同的同源物中:SMN2.是同性恋者的独特。嗡嗡作物。2001, 108(3): 255 - 266。
  8. 王志强,王志强,王志强。单个核苷酸SMN.基因调节剪接,并负责脊柱肌肉萎缩。Proc Natl Acad Sci U S A.1999; 96(11):6307-6311。
  9. Wirth B。存活运动神经元基因突变谱的更新(SMN1.)在常染色体隐性脊柱肌肉萎缩(SMA.)。哼Mutat。2000; 15(3): 228 - 237。
  10. Burghes啊,Beattie Ce。脊柱肌肉萎缩:为什么低水平的存活运动神经元蛋白使运动神经元生病了?NAT Rev Neurosci。2009; 10(8):597-609。
  11. 屠宰我。复制存活运动神经元基因的数量变异:对脊柱肌萎缩和其他神经变性疾病的影响。前Mol Biosci。2016; 7。
  12. 陈晓东,陈晓东,陈晓东,等。基因组测序数据的脊髓肌萎缩诊断和载体筛选。Genet Med。2020; 22(5):945-953。
  13. 1000个基因组项目财团。人类遗传变异的全球参考。自然。2015; 526(7571):68-74。
  14. Turo E,Astle WJ,Megy K,Gräfs,Greene D,Shamardina O等。国家卫生系统稀有疾病患者的全基因组测序。自然。2020, 583(7814): 96 - 102。