跳到内容

预测深度学习的主要序列剪接yobet亚洲

基肖尔Jaganathan

分享这篇文章

外显子组测序已经改变了对罕见遗传疾病患者及其家庭的临床诊断,当作为一线检测时,显著减少了诊断的时间和成本。然而,在罕见的遗传疾病队列中,外显子组测序的诊断率约为25-30%1,留下许多没有诊断的患者。如果我们有可以识别功能性非编码变体的方法,全基因组测序可能会显着增加诊断产量。

隐剪接变异(Cryptic splice variant)是一类非编码变异,长期以来被认为在罕见遗传疾病中发挥重要作用。隐剪接变异是一种位于必需的GT和AG剪接二核苷酸之外却破坏mRNA剪接正常模式的变异。然而,由于我们对剪接代码的理解不完整,以及由此导致的准确识别剪接变异的困难,这些突变往往在临床实践中被忽视。

近年来,RNA-seq已成为一种很有前景的检测此类变异的方法2,但到目前为止,RNA-SEQ在临床环境中的效用仍然限于相关细胞类型可用于活组织检查的少数病例。从任意前mRNA序列的剪接的一般预测可能允许精确地预测通过全基因组测序鉴定的非编码变体的接头改变后果,这可能会显着改善遗传疾病患者的诊断。

图1

对于前mRNA转录物中的每个位置,脾脏亚曲面10K使用侧翼序列的10000个核苷酸作为输入,并预测该位置是剪接受体、剪接供体还是两者都不是。

我们构建了SPLCEAI,一种深度残留的神经网络,其预测前mRNA转录物中的每个位置是基于前mRNA转录物的基因组序列的接头供体或接头受体(图1)。因为接头供体和接头受体可以通过数千个核苷酸分离,所以我们采用了一种神经网络架构,其可以识别跨越非常大的基因组距离的序列决定簇。与以前的方法相比,只考虑了邻近外显子内界的短核苷酸窗口3.,或者依赖人类工程特征4,我们的神经网络通过评估侧翼上下文序列的1yobet亚洲0,000个核苷酸来预测前mRNA转录物中的每个位置的接头函数,从初级序列中直接学习剪接决定因素。我们在人染色体的子集上使用了Gencode-Annotated的前mRNA转录序列,以培训神经网络的参数,并且剩余的染色体上的转录物,与副病剂排除在外,以测试网络的预测。

对于测试数据集中的前mRNA转录物,网络预测具有95%的Top-K准确性的接头结,这是预测站点的阈值的正确预测的接头位点的百分比等于拼接站点的实际数量存在于测试数据集中(图2)。甚至超过100kb的基因,例如cftr通常完全重建核苷酸精度(图3)。

图2

对于测试数据集中的pre-mRNA转录本,该网络预测剪接连接的准确率为95% top-k,即在阈值处,预测位点的数量等于测试数据集中实际存在的剪接位点的数量时,正确预测剪接位点的百分比。

图3.

上面显示了使用MaxEntScan(上)和SpliceAI-10k(下)评分的CFTR基因的完整前mrna转录本,以及预测的受体(红色箭头)和供体(绿色箭头)位点和外显子的实际位置(黑盒子)。对于每一种方法,我们应用了使预测站点数量等于实际站点总数的阈值。

要确认网络不仅仅依赖于偏见序列偏差,我们还在长时间的Nonoding RNA上测试了网络。尽管非编码转录注释的不完整性,但是网络在Lincrnas中预测了LincRNA中的已知接头,其顶-K精度为84%,表明它可以近似于与蛋白质编码选择性压力不含的任意序列对抗乳头物组的行为。

该网络仅在参考转录序列和剪接连接注释上进行训练,在训练过程中没有使用变异数据,这使得预测变异效应成为对网络准确模拟剪接序列决定因素能力的挑战。我们通过预测参考pre-mRNA转录序列和yobet亚洲包含该变体的替代转录序列的外显子-内含子边界,将深度学习网络扩展到评估剪接改变功能的遗传变异,并取分数之间的差异(参见∆Score,图4)。

图4.

为了评估突变对剪接改变的影响,SpliceAI-10k预测有突变和没有突变的基因前mrna序列中每个位置的受体和供体评分,如图所示的rs397515893,一种与心肌病相关的MYBPC3内含子中致病的隐性剪接变体。变异的∆Score值是从变异的50 nt内拼接预测分数的最大变化。

我们在GTEx队列的RNA-seq数据中寻找隐剪接变异的影响5该研究由149名个体组成,他们对多个组织进行了全基因组测序和rna测序。自信地预测了隐含剪接变体(∆Score > 0.5),以基本GT或AG剪接中断率的四分之三对RNA-seq进行验证(SpliceAI论文中的图2D)。隐剪接变体的验证率和效应大小都与它们的∆Scores密切相关,表明该模型的预测分数是变体剪接改变潜力的良好代理。经过验证的变异,特别是分数较低的变异(∆Score < 0.5),往往不完全渗透,并导致RNA-seq数据中异常和正常转录本混合的替代剪接。为神秘的剪接变体产生异常的拼接亚型至少3/10的观察mRNA转录的副本,该网络的灵敏度为71%外显子附近变体时,变异时,41%的人深陷intronic序列(∆得分> 0.5,图2 f SpliceAI纸)。这些发现表明,深层内含子变异更具有挑战性,可能是因为深层内含子区域包含较少的特异性决定因素,这些决定因素被选择存在于外显子附近。

为了探索自然选择对预测的隐剪接变异的特征,我们从ExAC数据库中对60706个人类外显子中的每个变异进行了评分6来自基因组聚合数据库(gnomAD)队列的15496人7,并识别出预测会改变外显子-内含子边界的变异。为了测量负选择作用于预测剪接变异体的程度,我们统计了在普通等位基因频率下发现的预测剪接变异体的数量(在队列中> 0.1%),并将其与在单例等位基因频率下的预测剪接变异体的数量进行了比较。由于最近人类人口规模呈指数级增长,单例变异代表最近创造的变异,已经被净化选择最低限度地过滤。相比之下,普通变异代表了通过净化选择筛选的中性突变的子集。我们观察到,在常见变异中,高分隐剪接变异严重损耗,这表明这些变异处于强烈的负选择(SpliceAI论文中的图4B和4D)。这表明绝大多数自信预测的隐剪接突变是功能性的。

自闭症谱系患者和严重智力残疾患者的大规模测序研究表明,De Novo蛋白编码突变(畸形,废话,框架和必需剪接二核苷酸)的核心作用,该突变在神经发育途径中破坏基因。为了评估通过改变剪接作用的非致曲面突变的临床影响,我们应用神经网络从解密发育障碍群组(DDD)中具有智力残疾的4,293个个体中De Novo突变的影响8,3,953个具有自闭症谱系障碍(ASD)的个人,来自Simons Simplex Collection和自闭症测序联盟9 - 11,以及来自Simons Simplex Collection的2073个未受影响的兄弟姐妹对照组。我们发现,与健康对照组相比,智力残疾和自闭症谱系障碍人群中预测会破坏剪接的新生突变显著丰富(SpliceAI论文中的图5A)。根据受影响个体与未受影响个体中新生突变的过剩,估计隐剪接突变约占自闭症谱系障碍致病突变的11%,智力残疾致病突变的9%,在对每项研究中缺乏测序覆盖或变异确定的区域的预期突变比例进行调整后。

接下来,我们通过实验验证了我们的隐剪接位点预测的准确性。为此,我们从Simons Simplex Collection的36个个体中获得了外周血源淋巴母细胞系(LCL),这些细胞系预测了至少有最低水平的LCL表达的基因的新生隐剪接突变;每个人都代表了他们直系亲属中唯一的自闭症病例。就像大多数罕见的遗传疾病一样,相关的组织和细胞类型(可能是发育中的大脑)是无法获得的。因此,我们进行了高深度的mRNA测序,以弥补这些转录本在lcl中的弱表达。在排除了8个在感兴趣的基因上RNA-seq覆盖不足的个体后,我们在28例患者中发现了21例与预测的新生隐剪接突变相关的独特的异常剪接事件。这些异常剪接事件在其他35个获得深度LCL RNA-seq的个体以及GTEx队列中的149个个体中均不存在。7例没有显示异常剪接在lcl,尽管充分表达的转录。虽然其中一部分可能代表假阳性预测,但一些隐性剪接突变可能导致组织特异性的选择性剪接,在这些实验条件下,在lcl中是观察不到的。

深度学习是yobet亚洲生物学中一项相对较新的技术,并不是没有潜在的权衡。深度学习模yobet亚洲型可以利用人类专家没有很好描述的序列决定因素,但也存在这样的风险,即模型可能包含不能反映剪接体真实行为的特征。这些混杂特征可以提高预测注释外显子-内含子边界的表观准确性,但会降低预测由遗传变异引起的任意序列变化的剪接改变效应的准确性。由于对变异的准确预测提供了最有力的证据,证明该模型可以推广到真正的生物学,我们使用三种完全正交的方法提供了预测剪接改变变异的确证证据:RNA-seq,人类群体中的自然选择,以及在病例与对照组队列中富集新生变异。虽然这并不能完全排除将不相关的特征纳入模型,但由此产生的模型似乎对剪接的真实生物学足够可靠,对实际应用(如识别遗传疾病患者的隐性剪接突变)具有重要价值。

我们理解非编码基因组中的突变如何导致人类疾病仍然远非完整。儿童神经发育障碍中可能渗透De Novo Cryptics突变的发现表明,整个基因组测序与改善的非编码基因组的解释偶联,可以使患者受益于严重的遗传障碍。还显示了隐秘的剪接突变在癌症中发挥主要作用,并且已经显示出剪接因子中的复发体细胞突变,以产生剪接特异性的广泛改变12.仍有许多工作来理解不同组织和细胞背景下的剪接调节,特别是在发生抗蛋白酶中直接冲击蛋白质的突变的情况下。鉴于寡核苷酸治疗的最近进展,其可能以序列特异性方式靶向剪接缺陷13在美国,对控制这一显著过程的调控机制的更深入的了解,可能为治疗干预的新候选方法铺平道路。

致谢

我们想承认J. K.Pritchard进行富有洞察力的讨论和支持,基因组聚合数据库(GNOMAD)以及为此资源提供外销和基因组变异数据的组。斯蒂芬J. Sanders由Simons Foundation(SFari#402281和#574598)的授权支持。

参考文献
  1. Lee H,Deignan JL,Dorrani N,等。临床外显子组测序用于罕见孟德尔疾病的遗传鉴定。《美国医学协会杂志》上。2014; 312(18): 1880 - 1887。
  2. Cummings BB,Marshall JL,Tukiainen T,等。利用转录组测序改进孟德尔病的遗传诊断。sci翻译med。2017; 9(386):EAAL5209。
  3. Yeo G, Burge CB。用于RNA拼接信号的短序基序的最大熵建模。J第一版。2004; 11(2-3):377-394。
  4. Xiong Hy,Alipanahi B,Lee LJ等人。RNA剪接。人类剪接密码揭示了疾病遗传决定因素的新见解。科学。2015, 347(6218): 1254806。
  5. GTEX联盟。基因型-组织表达(GTEx)初步分析:人类多组织基因调控。科学2015; 348:648 - 660。
  6. Lek M,Karczewski KJ,Minikel Ev,等。60706人的蛋白质编码遗传变异分析。大自然。2016; 536(7616):285-291。
  7. 王志强,王志强,王志强,等。从141456人的变异中量化了突变约束谱。大自然。2020, 581(7809): 434 - 443。
  8. 解密发育障碍研究。流行和架构新创发育障碍的突变。大自然。2017; 542(7642):433-438。
  9. 引用本文:王志强,王志强,王志强,等。突触,转录和染色质基在自闭症中破坏。大自然。2014; 515(7526):209-215。
  10. 等。从71个风险位点了解自闭症谱系障碍的基因组结构和生物学。神经元。2015; 87(6):1215-1233。
  11. Turner Tn,Hormozdiari F,Duyzend MH,等。自闭症家庭的基因组测序揭示了假定的非编码调节DNA的破坏。我是Hum Genet。2016; 98(1):58-74。
  12. 李志强,李志强,李志强,等。内含子保留是肿瘤抑制因子失活的普遍机制。Nat麝猫。2015; 47(11):1242-1248。
  13. 等。Nusinersen与Sham对照治疗婴儿期脊髓性肌萎缩。n Engl J Med。2017; 377(18):1723-1732。