跳到内容

基于深度学习的主序列拼接预测yobet亚洲

基肖尔Jaganathan

分享这篇文章

外显子组测序已经改变了对罕见遗传疾病患者及其家庭的临床诊断,当作为一线检测时,显著减少了诊断的时间和成本。然而,在罕见的遗传疾病队列中,外显子组测序的诊断率约为25-30%1,导致许多患者无法确诊。如果我们有能够识别功能性非编码变异的方法,全基因组测序可以大幅提高诊断产量。

隐剪接变异(Cryptic splice variant)是一类非编码变异,长期以来被认为在罕见遗传疾病中发挥重要作用。隐剪接变异是一种位于必需的GT和AG剪接二核苷酸之外却破坏mRNA剪接正常模式的变异。然而,由于我们对剪接代码的理解不完整,以及由此导致的准确识别剪接变异的困难,这些突变往往在临床实践中被忽视。

近年来,RNA-seq已成为一种很有前景的检测此类变异的方法2,但到目前为止,RNA-seq在临床环境中的应用仍局限于活检可获得相关细胞类型的少数病例。从任意的pre-mRNA序列进行剪接的一般预测,可能会允许通过全基因组测序确定的非编码变异的剪接改变结果的精确预测,这可能大大提高对遗传疾病患者的诊断。

图1

对于pre-mRNA转录本中的每个位置,SpliceAI-10k使用侧翼序列的10000个核苷酸作为输入,并预测该位置是剪接受体、剪接供体还是两者都不是。

我们构建了SpliceAI,这是一个深度残差神经网络,可以根据pre-mRNA转录本的基因组序列预测pre-mRNA转录本中的每个位置是剪接供体还是剪接受体(图1)。我们采用了一种神经网络结构,可以识别跨越非常大的基因组距离的序列决定因素。与以前的方法相比,以前的方法只考虑了紧邻外显子-内含子边界的短核苷酸窗口3.,或者依赖人类工程特征4,我们的神经网络直接从初级序列中学习剪接决yobet亚洲定因素,通过评估侧翼上下文序列的10000个核苷酸来预测pre-mRNA转录本中每个位置的剪接功能。我们在人类染色体的一个子集上使用gencode注释的pre-mRNA转录本序列来训练神经网络的参数,并在剩余的染色体(不包括谬误)上使用转录本来测试网络的预测。

对于测试数据集中的pre-mRNA转录本,该网络预测剪接连接的准确率为95% top-k,这是正确预测的百分比拼接网站在阈值预测网站的数量等于拼接网站出现在测试的实际数量数据集(图2)。即使CFTR基因等超过100 kb的检测通常是重建完美核苷酸精密(图3)。

图2

对于测试数据集中的pre-mRNA转录本,该网络预测剪接连接的准确率为95% top-k,即在阈值处,预测位点的数量等于测试数据集中实际存在的剪接位点的数量时,正确预测剪接位点的百分比。

图3

上面显示了使用MaxEntScan(上)和SpliceAI-10k(下)评分的CFTR基因的完整前mrna转录本,以及预测的受体(红色箭头)和供体(绿色箭头)位点和外显子的实际位置(黑盒子)。对于每一种方法,我们应用了使预测站点数量等于实际站点总数的阈值。

为了证实这个网络不是简单地依赖于外显子序列偏差,我们还在长非编码rna上测试了这个网络。尽管非编码的转录本注释不完整,该网络预测lincrna中已知的剪接连接的准确率为84% top-k,这表明它可以近似剪接体在不受蛋白质编码选择压力的任意序列上的行为。

该网络仅在参考转录序列和剪接连接注释上进行训练,在训练过程中没有使用变异数据,这使得预测变异效应成为对网络准确模拟剪接序列决定因素能力的挑战。我们通过预测参考pre-mRNA转录序列和yobet亚洲包含该变体的替代转录序列的外显子-内含子边界,将深度学习网络扩展到评估剪接改变功能的遗传变异,并取分数之间的差异(参见∆Score,图4)。

图4

为了评估突变对剪接改变的影响,SpliceAI-10k预测有突变和没有突变的基因前mrna序列中每个位置的受体和供体评分,如图所示的rs397515893,一种与心肌病相关的MYBPC3内含子中致病的隐性剪接变体。变异的∆Score值是从变异的50 nt内拼接预测分数的最大变化。

我们在GTEx队列的RNA-seq数据中寻找隐剪接变异的影响5该研究由149名个体组成,他们对多个组织进行了全基因组测序和rna测序。自信地预测了隐含剪接变体(∆Score > 0.5),以基本GT或AG剪接中断率的四分之三对RNA-seq进行验证(SpliceAI论文中的图2D)。隐剪接变体的验证率和效应大小都与它们的∆Scores密切相关,表明该模型的预测分数是变体剪接改变潜力的良好代理。经过验证的变异,特别是分数较低的变异(∆Score < 0.5),往往不完全渗透,并导致RNA-seq数据中异常和正常转录本混合的替代剪接。为神秘的剪接变体产生异常的拼接亚型至少3/10的观察mRNA转录的副本,该网络的灵敏度为71%外显子附近变体时,变异时,41%的人深陷intronic序列(∆得分> 0.5,图2 f SpliceAI纸)。这些发现表明,深层内含子变异更具有挑战性,可能是因为深层内含子区域包含较少的特异性决定因素,这些决定因素被选择存在于外显子附近。

为了探索自然选择对预测的隐剪接变异的特征,我们从ExAC数据库中对60706个人类外显子中的每个变异进行了评分6来自基因组聚合数据库(gnomAD)队列的15496人7,并识别出预测会改变外显子-内含子边界的变异。为了测量负选择作用于预测剪接变异体的程度,我们统计了在普通等位基因频率下发现的预测剪接变异体的数量(在队列中> 0.1%),并将其与在单例等位基因频率下的预测剪接变异体的数量进行了比较。由于最近人类人口规模呈指数级增长,单例变异代表最近创造的变异,已经被净化选择最低限度地过滤。相比之下,普通变异代表了通过净化选择筛选的中性突变的子集。我们观察到,在常见变异中,高分隐剪接变异严重损耗,这表明这些变异处于强烈的负选择(SpliceAI论文中的图4B和4D)。这表明绝大多数自信预测的隐剪接突变是功能性的。

对自闭症谱系障碍和严重智力残疾患者的大规模测序研究表明,新生蛋白编码突变(错义、无意义、移码和基本剪接二核苷酸)在神经发育途径中破坏基因的核心作用。为了评估通过改变剪接作用的非编码突变的临床影响,我们应用神经网络预测了来自解密发育障碍队列(DDD)的4293名智力残疾患者的新生突变的影响。8来自Simons Simplex Collection和自闭症测序联盟的3953名自闭症谱系障碍(ASD)患者9 - 11,以及来自Simons Simplex Collection的2073个未受影响的兄弟姐妹对照组。我们发现,与健康对照组相比,智力残疾和自闭症谱系障碍人群中预测会破坏剪接的新生突变显著丰富(SpliceAI论文中的图5A)。根据受影响个体与未受影响个体中新生突变的过剩,估计隐剪接突变约占自闭症谱系障碍致病突变的11%,智力残疾致病突变的9%,在对每项研究中缺乏测序覆盖或变异确定的区域的预期突变比例进行调整后。

接下来,我们通过实验验证了我们的隐剪接位点预测的准确性。为此,我们从Simons Simplex Collection的36个个体中获得了外周血源淋巴母细胞系(LCL),这些细胞系预测了至少有最低水平的LCL表达的基因的新生隐剪接突变;每个人都代表了他们直系亲属中唯一的自闭症病例。就像大多数罕见的遗传疾病一样,相关的组织和细胞类型(可能是发育中的大脑)是无法获得的。因此,我们进行了高深度的mRNA测序,以弥补这些转录本在lcl中的弱表达。在排除了8个在感兴趣的基因上RNA-seq覆盖不足的个体后,我们在28例患者中发现了21例与预测的新生隐剪接突变相关的独特的异常剪接事件。这些异常剪接事件在其他35个获得深度LCL RNA-seq的个体以及GTEx队列中的149个个体中均不存在。7例没有显示异常剪接在lcl,尽管充分表达的转录。虽然其中一部分可能代表假阳性预测,但一些隐性剪接突变可能导致组织特异性的选择性剪接,在这些实验条件下,在lcl中是观察不到的。

深度学习是yobet亚洲生物学中一项相对较新的技术,并不是没有潜在的权衡。深度学习模yobet亚洲型可以利用人类专家没有很好描述的序列决定因素,但也存在这样的风险,即模型可能包含不能反映剪接体真实行为的特征。这些混杂特征可以提高预测注释外显子-内含子边界的表观准确性,但会降低预测由遗传变异引起的任意序列变化的剪接改变效应的准确性。由于对变异的准确预测提供了最有力的证据,证明该模型可以推广到真正的生物学,我们使用三种完全正交的方法提供了预测剪接改变变异的确证证据:RNA-seq,人类群体中的自然选择,以及在病例与对照组队列中富集新生变异。虽然这并不能完全排除将不相关的特征纳入模型,但由此产生的模型似乎对剪接的真实生物学足够可靠,对实际应用(如识别遗传疾病患者的隐性剪接突变)具有重要价值。

我们对非编码基因组的突变如何导致人类疾病的理解仍远未完成。在儿童神经发育障碍中发现了可能渗透的新生隐式剪接突变,这表明全基因组测序结合改进的非编码基因组解释可以使严重遗传障碍患者受益。隐剪接突变也被证明在癌症中发挥重要作用,剪接因子中反复发生的体细胞突变已被证明在剪接特异性中产生广泛的改变12.要理解剪接在不同组织和细胞环境中的调控,特别是在发生直接影响剪接体中的蛋白质的突变时,仍有许多工作要做。鉴于最近在寡核苷酸治疗方面的进展,它可能以特定序列的方式靶向剪接缺陷13在美国,对控制这一显著过程的调控机制的更深入的了解,可能为治疗干预的新候选方法铺平道路。

确认

我们要感谢J. K. Pritchard的深刻讨论和支持,基因组聚合数据库(gnomAD),以及为该资源提供外显子组和基因组变异数据的小组。Stephan J. Sanders获得了西蒙斯基金会(SFARI #402281和#574598)的资助。

参考文献
  1. 李H, Deignan JL, Dorrani N,等。临床外显子组测序用于罕见孟德尔疾病的遗传鉴定。《美国医学协会杂志》上。2014; 312(18): 1880 - 1887。
  2. 等。利用转录组测序改进孟德尔病的遗传诊断。Sci Transl地中海。2017; 9 (386): eaal5209。
  3. Yeo G, Burge CB。短序列基序的最大熵建模及其在RNA剪接信号中的应用。J第一版。2004; 11(2): 377 - 394。
  4. 熊海云,李丽娟,李丽娟,等。RNA剪接。人类剪接密码揭示了疾病遗传决定因素的新见解。科学。2015, 347(6218): 1254806。
  5. GTEx财团。基因型-组织表达(GTEx)初步分析:人类多组织基因调控。科学2015; 348:648 - 660。
  6. 陈志强,王志强,王志强,等。60706人的蛋白质编码遗传变异分析。大自然。2016, 536(7616): 285 - 291。
  7. 王志强,王志强,王志强,等。从141456人的变异中量化了突变约束谱。大自然。2020, 581(7809): 434 - 443。
  8. 解读发育障碍研究。流行和架构新创发育障碍的突变。大自然。2017, 542(7642): 433 - 438。
  9. 引用本文:王志强,王志强,王志强,等。突触、转录和染色质基因在自闭症中的破坏。大自然。2014, 515(7526): 209 - 215。
  10. 等。从71个风险位点了解自闭症谱系障碍的基因组结构和生物学。神经元。2015, 87(6): 1215 - 1233。
  11. Turner TN, Hormozdiari F, Duyzend MH,等。自闭症家庭的基因组测序揭示了假定的非编码调节DNA的破坏。我是Hum Genet。2016年,98(1):58 - 74。
  12. 李志强,李志强,李志强,等。内含子保留是肿瘤抑制因子失活的普遍机制。Nat麝猫。2015年,47(11):1242 - 1248。
  13. 等。Nusinersen与Sham对照治疗婴儿期脊髓性肌萎缩。英国医学杂志。2017; 377(18): 1723 - 1732。