跳到内容

来自全基因组测序数据的脊髓性肌肉萎缩诊断和载体筛选

小陈和Michael A Eberle

分享这篇文章

介绍

脊髓性肌肉萎缩(SMA)是一种常染色体隐性神经肌肉疾病,其特征是丧失α运动神经元,导致严重的肌肉无力和萎缩,在出生时或出生后不久出现1.SMA是继囊性纤维化之后婴儿死亡的主要遗传原因。SMA的发病率为每6000- 10000名活产婴儿中有1例,不同种族的携带频率为1:40-802 - 4.由于有两种早期治疗方法Nusinersen,早期发现SMA对长期生活质量至关重要5和Zolgensma6,已获得FDA批准用于改善SMA症状。

致病基因,SMN1,以及它的类比SMN2,位于5号染色体上约2Mb区域,存在大量复杂的节段复制和倒节段复制。SMN2是由人类独有的祖先基因复制而产生的吗7.周围的基因组区域SMN1SMN2是受不平等的交叉和基因转换,导致可变拷贝数(CNs)SMN1SMN2.重要的是,SMN2>是否有99.9%的序列一致性SMN1其中一个碱基差异,第7外显子中的c.840C>T,具有关键的功能后果。通过打断剪接增强子,c.840T促进了第7外显子的跳跃性,导致了绝大多数SMN2-衍生转录本的不稳定和不完全功能8.大约95%的SMA病例是由于c.840C核苷酸的双等位基因缺失引起的SMN1或者基因转化为SMN2(c.840T)9.在剩余5%的SMA病例中,患者还具有其他致病性变异SMN110.SMN2可产生少量的功能蛋白,且数量较少SMN2个体的拷贝数与疾病严重程度呈负相关11

由于SMA的高发病率和疾病严重程度,美国医学遗传学学院推荐对人群进行筛查。筛选SMA的关键是:1)确定SMA的拷贝数SMN1用于SMA诊断和载体检测,2)确定拷贝数SMN2用于临床分类和预后。传统的SMA检测和载体检测是基于聚合酶链反应(PCR)的检测,如定量PCR (qPCR)、多重连接依赖探针扩增(MLPA)和数字PCR。这些方法主要确定的拷贝数SMN1基于c.840C>T位点的不同SMN1SMN2.使用WGS进行SMA测试将极大地有利于精准医疗计划,但它面临的挑战包括几乎完美的序列一致性SMN1SMN2,两种基因之间频繁的基因转换导致杂交基因。这些挑战需要一种专门设计的信息学方法来克服该地区的困难。

为了解决这个问题,我们开发了SMNCopyNumberCaller12,一种新的方法,检测的CN两者SMN1SMN2基于WGS数据。该方法是利用来自1000个基因组项目的群体数据开发的13(1 kgp)。在我们发表的这个方法中,我们描述了SMN1SMN2在12747个基因组中,鉴定出1568个样本SMN1得失与6615样同SMN2并计算出泛民族携带者频率为2%,与以往研究一致。此外,99.8%的SMN1和99.7%的SMN2CN要求采用正交方法,SMA召回率为100%,载体召回率为97.8%,SMA和载体的召回精度均为100%。该调用者使SMA检测成为新生儿护理中的一项全面检测,并在WGS测序项目中作为一种准确的载体筛查工具。

在这里,我们描述了如何通过使用多民族样本,我们能够识别非洲人口中较高的遗传变异性,并排除无法可靠区分的可变位点SMN1SMN2,优化所有人群的准确性。这突出了在开发新的信息方法时使用不同种族人群的重要性。此外,我们描述并提出了一个可视化工具,可以生成静态图像,允许用户查看支持这些基因中复制数调用的证据。这些信息将成为希望实现基于wgs的SMA调用的临床实验室的重要工具。

SMNCopyNumberCaller

为了解决两个基因高序列相似性的挑战,SMNCopyNumberCaller首先计算的总和的拷贝数SMN1SMN2,集体称为SMN,通过分析与任何一个基因对齐的reads的测序覆盖。因为存在。的截短形式SMN2,被称为SMN2∆7 - 8,剔除7-8外显子后,我们计算完整和截断的拷贝数SMN将基因分为两个区域:22.2kb的区域包括外显子1-6和6.3kb的区域包括外显子7-8。由外显子7-8区域计算的CN提供了完整的数目SMN基因。和样品SMN2∆7 - 8外显子1-6区域的CN比外显子7-8区域的CN高,这一差异表示SMN2∆7 - 8(图1)。

总SMN和完整SMN (SMN1+SMN2)的拷贝数根据读取深度计算
图1所示。副本总数和完整SMNSMN1+SMN2)由读取深度计算

散点图和总直方图SMNSMN1+SMN2)拷贝数(x轴,由外显子1-6的读取深度命名)和完整SMN基因拷贝数(y轴,称为外显子7-8的读深度)。对角线以下的簇表示存在缺失外显子7-8的基因。SMN2∆7 - 8).

在计算了求和的拷贝数后,我们进行区分SMN1SMN2使用支持的读取计数之间的基本差异SMN1SMN2.的个别CNSMN1SMN2)的计算,须考虑到总价SMNCN和SMN1SMN2)支持所有的读取SMN1+SMN2支持读取。在来电者的发育过程中,我们称其中枢神经系统为SMN1SMN2从1kGP样本中提取参考基因组中的16个碱基差异位点,并确定每个位点的CN调用是否与c.840C>T剪接变异位点的CN调用一致。非洲种群和非非洲种群的呼叫一致性存在显著差异(图2)。除非洲样本外,有13个位点与剪接变异位点具有较高(>85%)的CN一致性。相反,在非洲样本中,只有7个位点与剪接变异位点具有较高的CN一致性,且所有位点的一致性值均低于非非洲群体。这与非洲人口中许多位置的基因内变异是一致的。这项分析强调了在开发新的信息学方法来解决基因组中困难的临床相关区域时,使用种族多样化人群的重要性。

我们选择了八SMN1/2碱基差异,包括剪接变异位点以及非洲和非非洲人群中与剪接变异位点高度一致的7个位点。通过只选择这些站点,调用者应该始终如一地执行,独立于种族。SMNCopyNumberCaller使SMN1SMN2CN呼叫基于在八个选定地点的CN呼叫的共识。

图2。多民族分析显示了人口之间的差异
图2。多民族分析显示了人口之间的差异

显示抄本号(CN)与c.840C>T通话协议的样本百分比跨越16SMN1- - - - - -SMN2非洲和非非洲人群的基本差异位点。13*位点是c.840C>T剪接变异位点。黑色水平线表示85%的一致性。为了适用于所有人群,SMNCopyNumberCaller只使用了在非洲和非非洲人群中>85%的网站(即7,8,10,11,12,13,14,15)。这8个站点的坐标(hg38, chr5)分别是:70950493、70950966、70951392、70951463、70951897、70951946、70952094和70952209。

可视化调用者的结果

临床环境中异型呼叫的一个重要组成部分是在签署临床报告时需要审查支持证据。自SMNCopyNumberCaller发布以来,我们已经开发了一种可视化工具来生成静态图像,代表数据和QC呼叫(图3)。SMNSMN1+SMN2)与人口分布相对照。总的和完整的区别SMNCN表示的CNSMN2∆7 - 8。个人的中枢神经系统SMN1SMN2是根据加起来的完整CN和支持的读取计数在8个碱基之间的差异计算的SMN1SMN2(#7-8和#10-15,图3C)。图3D提供了一个粗略的估计SMN1SMN2拷贝数纯粹基于不同站点的读取计数。

图3。SMNCopyNumberCaller结果的可视化,以HG03458为例
图3。SMNCopyNumberCaller结果的可视化,以HG03458为例

A / B。原始深度值(垂线)与1kGP总体样本的总数SMNCN (A)及完好无损SMNCN (B)。C。的原始CN值SMN1SMN2在8个地点(#7-8,#10-15),用于确定共识。的原始CNSMN1SMN2),则计算为完整的CNSMN乘以SMN1SMN2)支持读取计数SMN1+SMN2支持读计数。*13是剪接变异位点。D。原始读取计数SMN1SMN2显示在右y轴上。左y轴显示了CN的粗略计算,由读计数除以样本中位数单倍体深度估计。

性能验证

为了验证该方法的准确性,我们将数字PCR和MLPA的CN呼叫与基于wgs的呼叫进行了比较,结果显示一致性为99.8%SMN199.7%,SMN2, SMA的召回率为100%,载体的召回率为97.8%,SMA和载体的准确率均为100%(表1)。

表1。对已知SMN1/SMN2拷贝号的样品进行验证。
正交法CN 总计 整合 不和谐的 协议
SMN1 0 64 64 0 100.0%
1 45 44 1 97.8%
2 897 897 0 100.0%
3. 174 174 0 100.0%
4 43 43 0 100.0%
6 1 0 1 0.0%
总计 1224 1222 2 99.8%
SMN2 0 117 117 0 100.0%
1 486 465 1 99.8%
2 541 539 2 99.6%
3. 60 60 0 100.0%
4 9 8 1 88.9%
总计 1193 1189 4 99.7%
SMN2∆7 - 8 0 1089 1089 0 100.0%
1 80 80 0 100.0%
2 4 4 0 100.0%
总计 1173 1173 0 100.0%

拷贝数的SMN1SMN2SMN2∆7 - 8由人口

我们将SMNCopyNumberCaller应用于来自1000基因组项目(1kGP)的2504个不相关样本和来自NIHR生物资源项目的10243个不相关样本14报告…的人口分布SMN1SMN2SMA的载波频率(带有一个拷贝的样品)SMN1)所采用的方法与以往基于pcr的研究报告一致2,4.特别是,变异性SMN1拷贝数远低于SMN2在大多数人口中,非洲人的复制数量要高得多SMN1复制数量比其他种群多。

图4。不同群体中SMN1/SMN2/ SMN2Δ7-8拷贝数分布
图4。的分布SMN1 / SMN2 / SMN2Δ7-8不同人群的拷贝数。

的分布图SMN1SMN2,SMN2Δ7-8拷贝数在5个人群的1kGP和国家卫生研究所(NIHR)生物资源队列。

总结

我们的SMNCopyNumberCaller可用于识别SMA的携带者和受影响状态,使SMA检测成为新生儿护理中的全面检测,并在WGS测序项目中作为准确的携带者筛查工具。虽然在基因组中存在正常的WGS管道不能传递变异调用的困难区域,但在这里,我们证明了将WGS与目标信息学方法配对的能力,以解决这样一个困难区域。WGS为评估整个基因组的遗传变异提供了宝贵的机会,并且继续利用WGS数据为困难地区开发更有针对性的信息学解决方案,将有助于使个性化医疗的前景向现实迈进一步。

确认

感谢剑桥大学的Alba sanchez - juan, Courtney French, Isabelle Delon和Lucy Raymond, Nemours Alfred I. duPont儿童医院的Andrew Connell和Matthew Butchbach,以及Illumina的Zoya Kingsbury, Aditi Chawla, Aaron Halpern, Ryan Taft和David Bentley。我们感谢Illumina的Andrew Warren开发了可视化工具。

参考文献
  1. 伦恩先生,王超。脊髓性肌肉萎缩症《柳叶刀》。2008;371(9630): 2120 - 2133。
  2. 朱海峰,周志刚,周志刚,等。脊髓性肌肉萎缩的泛民族携带者筛查和产前诊断:> 72400样本的临床实验室分析。Eur J Hum Genet。2012; 20(1):新。
  3. 麦克唐纳,汉密尔顿,D,库勒。SMA载体测试:族群测试性能差异的meta分析。Prenat成岩作用。2014年,34(12):1219 - 1226。
  4. 引用本文Hendrickson BC, Donohoe C, Akmaev VR, Sugarman EA, Labrousse P, Boguslavskiy L,等。的差异SMN1等位基因频率之间的种族在北美。J地中海麝猫。2009; 46(9): 641 - 644。
  5. 等。nusinersen治疗婴儿起病性脊髓性肌肉萎缩:一项2期开放标签剂量递增研究《柳叶刀》。2016, 388(10063): 3017 - 3026。
  6. Mendell JR, al - zaidy S, Shell R, Arnold WD, Rodino-Klapac LR, Prior TW,等。单剂量基因替代疗法治疗脊髓性肌肉萎缩英国医学杂志。2017; 377(18); 1713 - 1722。
  7. Rochette CF, Gilbert N, Simard LR。SMN基因复制的出现SMN2基因发生在不同的原始人:SMN2是智人独有的哼麝猫。2001, 108(3): 255 - 266。
  8. 王志强,王志强,王志强。一个核苷酸SMN基因调节剪接和负责脊髓肌萎缩。美国国立科学院科学研究所1999, 96(11): 6307 - 6311。
  9. Wirth B。存活运动神经元基因突变谱的更新(SMN1)在常染色体隐性脊髓性肌萎缩症(SMA).哼Mutat。2000; 15(3): 228 - 237。
  10. AH Burghes,公元前贝蒂。脊髓性肌肉萎缩:为什么存活的运动神经元蛋白水平低会使运动神经元生病?Nat转速>。2009; 10(8): 597 - 609。
  11. Butchbach我。存活运动神经元基因的拷贝数变化:对脊髓肌肉萎缩和其他神经退行性疾病的影响摩尔Biosci前面。2016; 7。
  12. 陈晓东,陈晓东,陈晓东,等。脊髓性肌肉萎缩的诊断和基因组测序数据的载体筛选。地中海麝猫。2020; 22(5): 945 - 953。
  13. 1000基因组项目联盟。人类遗传变异的全球参考。大自然。2015, 526(7571): 68 - 74。
  14. 王志强,王志强,王志强,等。国家卫生系统罕见疾病患者全基因组测序。大自然。2020, 583(7814): 96 - 102。