跳到内容

用深度学习预测主序列剪接yobet亚洲

基肖尔Jaganathan

分享本文

外显子组测序已经改变了罕见遗传疾病患者和家庭的临床诊断,当作为一线测试时,极大地减少了诊断过程中的时间和成本。然而,外显子组测序在罕见遗传疾病队列中的诊断率约为25-30%1导致许多患者没有得到诊断。如果我们有方法可以识别功能性非编码变异,那么全基因组测序可以大大提高诊断率。

隐剪接变异体是一种非编码变异体,长期以来被认为在罕见遗传疾病中起着重要作用,尽管它位于必需的GT和AG剪接二核苷酸之外,但却破坏了mRNA剪接的正常模式。然而,这些突变在临床实践中往往被忽视,因为我们对剪接编码的理解不完全,因此很难准确识别剪接改变的变异。

最近,RNA-seq已经成为一种很有前途的检测这种变异的方法2但到目前为止,RNA-seq在临床环境中的应用仍然局限于少数病例,其中相关细胞类型可进行活检。对任意pre-mRNA序列剪接的一般预测可能会精确预测通过全基因组测序识别的非编码变异的剪接改变后果,这可能会大大提高遗传性疾病患者的诊断。

图1

对于pre-mRNA转录本中的每个位置,SpliceAI-10k使用侧翼序列的10,000个核苷酸作为输入,并预测该位置是剪接受体,剪接供体,还是两者都不是。

我们构建了SpliceAI,这是一个深度残差神经网络,可以根据pre-mRNA转录本的基因组序列预测pre-mRNA转录本中的每个位置是剪接供体还是剪接受体(图1)。由于剪接供体和剪接受体可能被数千个核苷酸分开,我们采用了一种神经网络架构,可以识别跨越非常大的基因组距离的序列决定因素。相比之下,以前的方法只考虑毗邻外显子-内含子边界的短核苷酸窗口3.或者依赖于人类设计的功能4,我们的神经网络通过评估侧翼上下文序列的1yobet亚洲0,000个核苷酸,直接从主序列中学习剪接决定因素,以预测pre-mRNA转录本中每个位置的剪接功能。我们在人类染色体的一个子集上使用gencode注释的pre-mRNA转录序列来训练神经网络的参数,并在排除了谬误的其余染色体上使用转录本来测试网络的预测。

对于测试数据集中的pre-mRNA转录本,该网络预测剪接连接的top-k准确率为95%,这是在阈值处正确预测剪接位点的百分比,其中预测位点的数量等于测试数据集中存在的实际剪接位点的数量(图2)。即使是超过100 kb的基因,如CFTR,通常也能完美地重建到核苷酸精度(图3)。

图2

对于测试数据集中的pre-mRNA转录本,该网络预测剪接连接的top-k准确率为95%,这是在阈值处正确预测剪接位点的百分比,其中预测位点的数量等于测试数据集中存在的剪接位点的实际数量。

图3

使用MaxEntScan(上)和SpliceAI-10k(下)对CFTR基因进行了完整的pre-mRNA转录,以及预测的受体(红色箭头)和供体(绿色箭头)位点和外显子的实际位置(黑色方框)。对于每种方法,我们都应用阈值,使预测站点的数量等于实际站点的总数。

为了确认该网络不仅仅依赖于外显子序列偏差,我们还在长非编码rna上测试了该网络。尽管非编码转录本注释的不完整性,该网络预测lincRNAs中的已知剪接连接的top-k准确率为84%,这表明它可以近似剪接体在任意序列上的行为,这些序列不受蛋白质编码选择压力的影响。

该网络仅在参考转录本序列和剪接结注释上进行训练,并且在训练过程中没有使用变体数据,使得对变体效应的预测成为一项具有挑战性的测试,以测试网络准确模拟剪接序列决定因素的能力。我们将深度学习网络扩展到评估剪接改变功能的yobet亚洲遗传变异,方法是预测参考pre-mRNA转录序列和包含该变异的替代转录序列的外显子-内含子边界,并取分数之间的差值(称为∆分数,图4)。

图4

为了评估突变对剪接改变的影响,SpliceAI-10k预测了基因前mrna序列中每个位置的受体和供体得分,如rs397515893所示,rs397515893是MYBPC3内含子中与心肌病相关的致病隐性剪接变体。该突变的∆Score值是该突变在50 nt内拼接预测评分变化最大的值。

我们在GTEx队列的RNA-seq数据中寻找隐剪接变异的影响5该研究包括149名同时进行全基因组测序和来自多个组织的RNA-seq的个体。自信预测的隐藏剪接变异(∆评分> 0.5)在RNA-seq上的验证率为基本GT或AG剪接中断率的四分之三(SpliceAI论文中的图2D)。隐剪接变体的验证率和效应量密切跟踪其∆分数,这表明模型的预测分数很好地代表了变体的剪接改变潜力。经过验证的变体,特别是那些评分较低的变体(∆评分< 0.5),通常是不完全渗透的,并导致替代剪接,在RNA-seq数据中产生异常和正常转录本的混合物。对于在至少十分之三的观察到的mRNA转录副本中产生异常剪接异构体的隐剪接变体,当变体位于外显子附近时,网络的灵敏度为71%,当变体位于深内含子序列时,网络的灵敏度为41%(∆评分> 0.5,SpliceAI论文中的图2F)。这些发现表明,深层内含子变异更难以预测,可能是因为深层内含子区域包含较少的特异性决定因素,这些决定因素被选择存在于外显子附近。

为了探索自然选择对预测的隐性剪接变异的特征,我们对来自外显子组聚合联盟(ExAC)数据库的60,706个人类外显子中的每个变异进行了评分6以及来自基因组聚合数据库(gnomAD)队列的15496人7,并确定了预计会改变外显子-内含子边界的变体。为了测量负选择作用于预测剪接改变变异的程度,我们统计了在常见等位基因频率下发现的预测剪接改变变异的数量(队列中> 0.1%),并将其与单基因等位基因频率下预测的剪接改变变异的数量进行了比较。由于最近人类种群规模的指数级扩张,单变异代表了最近产生的突变,这些突变已经被净化选择最低限度地过滤了。相比之下,普通变异代表了中性突变的一个子集,它们已经通过了净化选择的筛子。我们观察到高分的隐剪接变异在普通变异中被严重耗尽,这表明这些变异处于强负选择状态(SpliceAI论文中的图4B和4D)。这表明绝大多数有信心预测的隐性剪接突变是功能性的。

对自闭症谱系障碍和严重智力残疾患者的大规模测序研究表明,从头开始的蛋白质编码突变(错义、无意义、移码和必要剪接二核苷酸)在神经发育途径中破坏基因的核心作用。为了评估通过改变剪接起作用的非编码突变的临床影响,我们应用神经网络来预测来自破译发育障碍队列(DDD)的4293名智力残疾患者的从头突变的影响。8来自Simons Simplex Collection和自闭症测序联盟的3953名自闭症谱系障碍(ASD)患者9 - 11以及Simons Simplex Collection的2073个未受影响的兄弟姐妹控件。我们发现,与健康对照组相比,在智力残疾和自闭症谱系障碍队列中,预测会破坏剪接的从头突变显著丰富(SpliceAI论文中的图5A)。根据受影响个体与未受影响个体中过度的从头突变,在对每项研究中缺乏测序覆盖或变体确定的区域的预期突变比例进行调整后,隐剪接突变估计占自闭症谱系障碍致病突变的约11%,占智力残疾致病突变的9%。

接下来,我们通过实验验证了我们的隐剪接位点预测的准确性。为此,我们从Simons Simplex收集的36个个体中获得了外周血源性淋巴母细胞系(LCLs),这些细胞系在至少最低水平的LCL表达的基因中预测了新生隐剪接突变;每个人都代表了他们直系亲属中唯一的自闭症病例。与大多数罕见遗传疾病一样,无法获得相关的组织和细胞类型(可能是发育中的大脑)。因此,我们进行了高深度mRNA测序,以弥补LCLs中许多这些转录本的弱表达。在排除了兴趣基因上RNA-seq覆盖不足的8个个体后,我们在28例患者中的21例中发现了与预测的新生隐剪接突变相关的独特的异常剪接事件。这些异常剪接事件在另外35个获得深度LCL RNA-seq的个体以及来自GTEx队列的149个个体中不存在。7例LCLs未出现异常剪接,尽管转录本表达充分。尽管其中一部分可能代表假阳性预测,但在这些实验条件下,一些隐性剪接突变可能导致在LCLs中观察不到的组织特异性替代剪接。

深度学习在yobet亚洲生物学中是一种相对较新的技术,并不是没有潜在的权衡。深度学习模yobet亚洲型可以利用人类专家没有很好地描述的序列决定因素,但也存在模型可能包含不能反映剪接体真实行为的特征的风险。这些混杂特征可以提高预测注释外显子-内含子边界的表观准确性,但会降低预测由遗传变异引起的任意序列变化的剪接改变效应的准确性。因为对变异的准确预测提供了最有力的证据,证明该模型可以推广到真正的生物学,我们使用三种完全正交的方法提供了预测剪接改变变异的确证证据:RNA-seq,人类群体中的自然选择,以及在病例与对照队列中富集新生变异。虽然这并不完全排除将不相关的特征纳入模型,但所得到的模型似乎足够忠实于剪接的真实生物学,对于实际应用具有重要价值,例如识别遗传疾病患者的隐性剪接突变。

我们对非编码基因组突变如何导致人类疾病的理解还远远没有完成。在儿童神经发育障碍中可能的穿透从头隐剪接突变的发现表明,全基因组测序加上对非编码基因组的改进解释可以使患有严重遗传疾病的患者受益。隐性剪接突变也被证明在癌症中起主要作用,剪接因子的反复体细胞突变已被证明在剪接特异性上产生广泛的改变12.要了解不同组织和细胞环境中剪接的调控,特别是在直接影响剪接体中蛋白质的突变事件中,仍有许多工作要做。鉴于寡核苷酸治疗的最新进展,有可能以序列特异性的方式靶向剪接缺陷13在美国,更好地理解控制这一显著过程的调节机制,可以为治疗干预的新候选铺平道路。

确认

我们要感谢J. K. Pritchard的深刻讨论和支持,基因组聚合数据库(gnomAD),以及为这一资源提供外显子组和基因组变异数据的组织。Stephan J. Sanders得到了西蒙斯基金会(SFARI #402281和#574598)的资助。

参考文献
  1. 李志强,李志强,等。临床外显子组测序用于罕见孟德尔疾病的遗传鉴定。《美国医学协会杂志》上。2014; 312(18): 1880 - 1887。
  2. 卡明斯,马绍尔,杜凯宁,等。利用转录组测序技术改进孟德尔病的遗传诊断。科学翻译医学。2017; 9 (386): eaal5209。
  3. 杨g, Burge CB。短序列基序的最大熵建模及其在RNA剪接信号中的应用。计算生物学。2004; 11(2): 377 - 394。
  4. 熊海燕,Alipanahi B,李丽娟,等。RNA剪接。人类剪接密码揭示了疾病遗传决定因素的新见解。科学。2015, 347(6218): 1254806。
  5. GTEx联盟。基因型-组织表达(GTEx)先导分析:人类多组织基因调控。科学2015; 348:648 - 660。
  6. 李国强,李国强,李国强,等。60706人蛋白质编码遗传变异分析。大自然。2016, 536(7616): 285 - 291。
  7. 陈志强,陈志强,陈志强,等。突变约束谱从141456人的变异中量化。大自然。2020, 581(7809): 434 - 443。
  8. 破译发育障碍研究。流行和架构新创发育障碍中的突变。大自然。2017, 542(7642): 433 - 438。
  9. De Rubeis S, He X, Goldberg AP,等。自闭症患者突触、转录和染色质基因被破坏。大自然。2014, 515(7526): 209 - 215。
  10. 孙志刚,何志刚,王志刚,等。从71个风险位点深入了解自闭症谱系障碍基因组结构和生物学。神经元。2015, 87(6): 1215 - 1233。
  11. 张志刚,张志刚,张志刚,等。自闭症影响家族的基因组测序揭示了假定的非编码调控DNA的破坏。Am J Hum Genet。2016年,98(1):58 - 74。
  12. 郑浩,李丹,李俊,等。内含子保留是肿瘤抑制因子失活的普遍机制。Nat麝猫。2015年,47(11):1242 - 1248。
  13. 张志刚,张志刚,张志刚,等。Nusinersen与假对照治疗婴儿起病性脊髓性肌萎缩。N英语J医学。2017; 377(18): 1723 - 1732。