跳到内容

预测人类突变与深神经网络的临床影响

洪高和凯尔福哈

分享此文章

介绍

数以百万计的人类基因组和外显子已被测序,但由于难以区分致病突变和良性基因变异,它们的临床应用仍然有限1,2. 由于其对健康的有害影响,具有临床意义的遗传变异在人群中极为罕见3..因此,在人口中的高频处的变体观察是有利于良性后果的强烈证据2,4,通过消除过程来系统地鉴定致病性突变。测定各种人口的常见变化是对良性变异的目录的有效策略5.,但是当今人类的常见变异总量有限。在参考基因组中出现超过7000万潜在的密码变体,仅在1000次以上的总体群体等位基因频率频率大约15,6.

除了现代人类之外,黑猩猩是现存的第二接近物种,它们拥有99.4%的氨基酸序列相同性7.. 人类和黑猩猩蛋白质编码序列的相似性表明,对黑猩猩蛋白质编码变体进行的自然选择也可能对人类相同突变的适应性产生影响。如果状态相同的多态性同样影响两个物种的适应性,那么黑猩猩群体中高等位基因频率的变异的存在应该表明人类的良性后果,大大扩展了已知良性变异的目录。这就形成了需要用黑猩猩变种来验证的假设。

我们证明普通的灵长类动物变异往往是人类人口良性。利用数十万个常见变体从人口序列的六种非人类灵长类动物种类作为培训数据,我们开发了Primateai,这是一种深度神经网络,其预测具有高精度的致病性突变。

其他灵长类动物的常见变异在人类中基本上是良性的

外显子组聚合联合体(ExAC)和基因组聚合数据库(gnomAD)中收集的123136人的聚合外显子组数据的最新可用性使我们能够测量自然选择对等位基因频率谱中错义和同义突变的影响5..单变体(在队列观察到仅一次)紧密地匹配预期2.2:1的错义:通过预测同义比从头调整混杂因子后的突变(图1A)8.,但在更高的等位基因频率观察到的错义的数变异降低由于有害突变的自然选择吹扫。

图1是人类等位基因频谱的异构率。

A.,EXAC / GNOMAD数据库中观察到的所有麦克信和同义变种通过等位基因频率分为4个类别。阴影灰色条表示每个类别中的同义变种的数量;深绿色棒代表密码变种。每个条的高度缩放到每个等位基因频率类别中的同义变体的数量。B,人类畸形的等位基因频谱和与黑猩猩常见变体相同的逐个状态(IBS)的同义变体。

Primate variants were obtained from the great ape genome sequencing project and dbSNP9,10.我们首先检查了与人类变体相同状态的常见的黑猩猩变体(图1B),并发现了对人类等位基因频谱的同义比率在很大程度上是恒定的,这与对共同的黑猩猩的缺乏负面选择一致人口中的变异。低畸形:与普通黑猩猩变体相同的人类变体中观察到的同义比率与黑猩猩的较大的有效种群大小一致,这使得能够更有效地过滤温和的有害变化11,12..

我们接下来鉴定了具有相同状态的人变体,其在六种非人类灵长类动物中的至少一种中观察到的变异。六种物种中的每一个的变化很大程度上代表了基于有限数量的序列测序的常见变体,并且低畸形:对每个物种观察到的同义比率。类似于黑猩猩,我们发现六种非人灵长类动物物种的变体的异构率的同义比率在人类等位基因频谱上大致相等,除了普通等位基因频率下的畸形变异(图2),预期是由于包含少数罕见的罕见变种。

图2。用于人类畸打的等位基因频谱和至少一种非人类灵长类动物物种中观察到的同义变体,类似于图1。

我们发现,在ClinVar数据库中,在状态上与观察到的灵长类变异体相同的人类错义变异体因良性后果而被强烈富集13..排除与冲突的注释,ClinVar变体中存在的至少一种非人类的灵长类物种注释为不确定意义变体和那些后良性或可能的良性上的时间平均值的90%,比35%ClinVar错义在变体一般(图3)。ClinVar注释的灵长类变体的致病性比从取样健康人(〜95%良性或可能的良性后果)的类似尺寸的队列观察到稍大。

图3。与通过从EXAC / GNOMAD等位基因频率(中间排)的抽样模拟的30人的群组中的Clinvar变体相比,与在exac / gnomad等位基因频率(中间行)中模拟的群体中的Clinvar变体相比)。仅排除了仅符合不确定意义的互连的良性和致病性断言和变体被排除在外。

变体致病性分类yobet亚洲的深度学习网络

临床应用的变异分类的重要性激发了许多使用监督机器学习的众多尝试解决问题,但这些努力因缺乏充分规模的真相数据集而受到阻碍,其中包含了被自信标记的良性和致病型培训的良性和致病型号yobet亚洲14 - 24.现有人类专家策疗变体数据库涵盖了基因组的一小部分,ClinVar数据库中的〜50%来自200个基因(〜1%的人蛋白质编码基因)。此外,系统研究表明,许多人的专家注释具有可疑的支持证据5,25,强调了解释可能仅在单个患者中观察到的罕见变异的难度。为了减少人类的解释偏差,最近的分类器已经被训练成常见的人类多态性或固定的人类-黑猩猩替换每股26到29但是,这些分类器也用作他们输入的预测分数,这些分数在人类策划数据库上培训。客观的基准,这些方法的性能在没有独立的无偏见的真理数据集的情况下难以捉摸30..

来自六种非人灵长类动物(黑猩猩、倭黑猩猩、大猩猩、猩猩、恒河猴和狨猴)的变异产生了超过300000个独特的错义变异,这些变异与普通人类变异不重叠,并且在很大程度上代表了经过净化选择筛选的良性后果的普通变异,大大扩展了机器学习方法可用的训练数据集。平均而言,每个灵长类物种贡献了相当于50K个变种,比整个ClinVar数据库中当前的总数还要多。此外,该内容在人类解释中没有偏见。yobet亚洲

使用的数据集,包括常见的人类变体和灵长类的变化,我们培养了新颖深剩余网络,PrimateAI(https://github.com/Illumina/PrimateAI),它作为输入的氨基酸序列侧翼的利益和变体在其他物种中的正交序列比对(图4A)31..与采用人工工程功能的现有分类器不同,我们的深度学习网络学会直接从主要序列中提取功能。yobet亚洲为了纳入有关蛋白质结构的信息,我们训练了单独的网络,以预测单独的序列的二次结构和溶剂可访问性32,33,然后这些包括如在完整模型(4B图)子网络。给定数量少的人蛋白质的已成功结晶,从一级序列推断结构具有避免偏差的优点由于不完全蛋白质结构和功能结构域的注释。网络的总深度,与蛋白质的结构包括,被卷积的36层,由大致400000可训练参数。

要使用仅使用良性标签的变体训练分类器,我们将预测问题置于预测问题中,因为是否可能被观察到给定突变作为人群中的常见变体。几个因素影响了观察高位等级频率的变种的可能性,其中我们只感兴趣地对有害性感兴趣。我们将良性培训中的每种变种与未标记的小密义突变相匹配,控制着混淆因素,并培训了深入学习网络,区分良性变异和匹配的控制yobet亚洲8..随着未标记的变体的数量大大超过标有良性训练数据集的大小,我们训练了八个网络并行,每个网络都使用与良性训练数据集相匹配的不同的未标记变体,以获得共识预测。

图4。PrimateAI的体系结构,用于致病性预测的深度学习网络。yobet亚洲A.,致病性预测的深度学习网络结构,灵长类EAI。预测致病yobet亚洲性,表示为灵长类EAI评分,评分范围从0(良性)到1(致病性)。该网络以人类氨基酸(AA)参考序列和以变体为中心的替代序列(51 AAs)为输入,从99种脊椎动物计算的位置-权重矩阵(PWM)守恒曲线,以及B,二级结构和溶剂可及性预测深度学习网络的输出,该网络预测三态蛋白质二级结构(螺旋-H、β片-B和线圈-C)和三态溶剂可及性(掩埋-B、中间-I和暴露-E)。yobet亚洲

致病性预测实例

深度学习网络仅使用初级氨基酸序列作为输入,精确地将高致病性评分分配给关键蛋白质功能域的残基,如电压门控钠通道SCN2A(图5yobet亚洲)所示,该基因是癫痫、自闭症和智力残疾的主要疾病基因。SCN2A的结构由四个同源重复序列组成,每个重复序列包含六个跨膜螺旋(S1-S6)34,35. 膜去极化后,带正电的S4跨膜螺旋向膜的细胞外侧移动,导致S5/S6成孔域通过S4-S5连接体打开。临床上与早发性癫痫性脑病相关的S4、S4-S5连接子和S5结构域突变36.,通过网络预测到基因中具有最高的致病性分数,并且耗尽健康人群中的变体。

图5。在SCN2A基因中的每个氨基酸位置预测致病性评分,用于关键功能域的注释。沿着基因绘制的是每个氨基酸位置的畸形取代的平均primateai得分。

我们比较我们与现有的分类算法的网络的性能,使用从训练中扣除10,000常见的灵长类动物的变种。由于所有新产生的人错义变异体的〜50%,通过在共同的等位基因频率净化选择过滤(图1a),我们确定使用被匹配到万共同灵长类由变随机选择的变体的每个分类器的第50百分位的分数突变率和测序覆盖,并在该阈值(图6)评估的每个分类器的精确度。我们深厚的学习网络yobet亚洲(91%的准确率)在以10000隐瞒共同灵长类变种分配良性结果超过了其它分类(80%的准确率在接下来的最佳模式)的性能。大约一半在现有方法的改进来自使用所述深度学习网络,并且一半来自扩充与灵长类变化的训练数据集,相比于与人类变化数据只(图6)训练网络的精度。yobet亚洲

图6。比较分类器在预测10000种常见灵长类变异体的良性后果方面的作用,这些变异体被排除在训练之外。y轴表示将每个分类器的阈值标准化为50后正确分类为良性的灵长类变异体的百分比TH.百分位得分在一组10,000个随机变体上匹配的一组匹配的变形率。

测试临床情景中不确定意义变种的分类,我们评估了深度学习网络区分的能力yobet亚洲从头神经发育障碍患者与健康对照组发生的突变。从患病率来看,神经发育障碍是罕见遗传病的最大类别之一37.而最近的三重奏测序研究涉及核心作用从头畸形和蛋白质截断突变38-41.我们分类每人被自信地叫从头解码发育障碍队列(DDD)中4293名受影响个体的错义变异42.,而从头Simon单纯形收集队列(SSC)中2517名未受影响同胞的错义变异43.,并用Wilcoxon秩和检验评估两种分布预测得分的差异(图7a)。在这项任务上,深度yobet亚洲学习网络明显优于其他分类器(图7b)。

图7。A.,primateai预测分数的分布从头与未受影响的同胞相比,DDD患者出现错义变异,相应的Wilcoxon秩和p值。B,分类时分类器的比较从头错义在DDD病例与对照变种。Wilcoxon秩和检验的p值显示为每个分类器。

接下来我们试图估计在同一基因内对良性致病性突变进行分类的深度学习网络的准确性。yobet亚洲鉴于DDD人群主要由受影响儿童的指数案例组成,没有受到第一学位亲属的影响,必须表明分类器通过有利于基因的致病性并未充气从头主要的继承方式。我们将分析限制为605个基因,这些基因对于DDD研究中的疾病协会标称显着,仅由蛋白质截断变化计算42..在这些基因中,从头与预期相比,错义突变以3:1的比例增加(图8a),表明约67%是致病性的。深度学习网络能够区分致病性和良性yobet亚洲从头同一组基因内的变体(图8B),通过大边缘优于其他方法(图8C)。

图8. 605型DDD基因内的分类准确性,P <0.05。A.,富集从头对来自DDD队列的受影响的个体在605个相关基因中的预期期望突变,这是重要的从头蛋白截断变化(P <0.05)。B,primateai预测分数的分布从头DDD患者与未受影响的兄弟姐妹在605个相关基因内发生错义变异,对应的Wilcoxon秩和p值。C,各种分类器在分离时的比较从头错义的情况下VS的605个基因中的变异控制。y轴示出了用于每个分类器的Wilcoxon秩和检验的p值。

在二进制截止点≥ 0.803(图9a),65%从头病例中的错义突变被深度学习网络分类为致病,而这一比例为14%yobet亚洲从头对照中的畸形突变,对应于88%的分类精度(图9B)。在神经发育障碍中常常不完全渗透和可变的富有效力44.,由于在对照中包含了部分渗透致病性变异,这个数字可能低估了我们分类器的准确性。

图9.各种分类器的比较。A.,在接收器操作员特征(ROC)曲线上显示的性能,为每个分类器指示曲线(AUC)下的区域。B,每个分类器的分类准确性和AUC。所示的分类精度是使用分类器将基于图8A中的富集预期的分类器预期相同数量的致病和良性变体的阈值的真正正负误差率的平均值。考虑到33%的DDD从头密码变体代表背景,完美分类器的最大可实现的AUC用虚线表示。

我们的结果表明,系统的灵长类种群测序是一种有效的策略,可以对目前限制临床基因组解释的数百万具有不确定意义的人类变体进行分类。随着用于训练网络的良性变异体数量的增加,我们的深入学习网络在普通灵长类变异体和临床变异体方面的准确性也随之增加。对其他灵长类物种的常见变异进行编目将改善对数百万具有不确定意义的变异的解释,进一步提高人类基因组测序的临床实用性。yobet亚洲

致谢

我们要感谢J. K. Pritchard、M. E. Hurles、J. W. Belmont和R. E. Green进行了富有洞察力的讨论。我们要感谢基因组聚合数据库(gnomAD)和为该资源提供外显子组和基因组变异数据的小组。李彦军、李晓琳部分获得国家普通医学研究所和国家科学基金R01GM110240 (no . CNS- 1747783, no . CNS- 1624782, no . OAC-1229576)资助。我们要感谢原论文的作者,包括Laksshman Sundaram, Samskruthi Reddy Padigepati, Jeremy F. McRae, Yanjun Li, Jack A. Kosmicki, Nondas Fritzilas, Jorg Hakenberg, Anindita Dutta, John Shon, Jinbo Xu, Serafim Batzloglou和Xiaolin Li。

外部链接

出版物:https://pubmed.ncbi.nlm.nih.gov/30038395/

软件:https://github.com/Illumina/PrimateAI

来自大猿基因组项目的灵长类多态性:
https://eichlerlab.gs.washington.edu/greatape/data.html

从dbSNP数据库:https://www.ncbi.nlm.nih.gov/snp/

灵长类ai有7000万种变异:https://basespace.illumina.com/s/cPgCSmecvhb4

参考
  1. D. G.麦克阿瑟等。人类疾病中序列变异因果关系调查指南。自然508469-476,内政部:10.1038/nature13127(2014)。
  2. 雷姆,H。L.,J。s贝格,L。D布鲁克斯,C。D布斯塔曼特,J。P埃文斯,M。J兰德鲁姆,D。H莱德贝特,D。R马格洛特,C。L马丁,R。L努斯鲍姆,S。E普隆,E。M拉莫斯,S。T雪莉,M。s沃森。Clingen - 临床基因组资源。心血管病。j .地中海。372,2235-2242(2015)。
  3. Bamshad, M. J., S. B. Ng, A. W. Bigham, H. K. Tabor, M. J. Emond, D. A. Nickerson, J. Shendure。Exome测序作为孟德利亚病基因发现的工具。纳特。牧师。吉内特。12,745-755(2011)。
  4. Richards,S.等。序列变体解释的标准和指导方针:美国医学遗传学和基因组学学院的联合共识建议和分子病理学协会。遗传医学17405-424,内政部:10.1038/gim.2015.30(2015)。
  5. 列克,M。等60,706人的蛋白质编码遗传变异分析。自然536285-291,内政部:10.1038/nature19057(2016)。
  6. 刘,X.,X. Jian,E. Boerwinkle。dbNSFP:人类非同义snp及其功能预测的轻量级数据库。.人类突变32,894-899(2011)。
  7. 黑猩猩测序分析联盟。黑猩猩基因组的初始序列和人类基因组的比较。自然437,69-87,DOI:10.1038 / Nature04072(2005)。
  8. Samocha,K.E.等人。解释人类疾病中义目突变的框架。纳特·吉内特46,944-950,DOI:10.1038 / NG.3050(2014)。
  9. 雪利酒,S.T等人。dbSNP: NCBI遗传变异数据库。核酸res.29,308-311,DOI:10.1093 / NAR / 29.1.308(2001)。
  10. Prado-Martinez,J.等。类人猿基因组多样性和种群历史。自然499,471-475(2013)。
  11. 木村,M.分子演化中立理论。剑桥大学出版社,1983年出版社
  12. 德曼努埃尔,M。等黑猩猩基因组多样性揭示了古代蒙皮斯的僵尸。科学354,477-481,DOI:10.1126 / Science.Aag2602(2016)。
  13. 兰德鲁姆,M。J等临床相关变异解释的公共档案。核酸res.44,D862-868,内政部:10.1093/nar/gkv1222(2016)。
  14. NG,P. C.&Henikoff,S。预测有害氨基酸取代。基因组研究11,863-874,DOI:10.1101 / GR.176601(2001)。
  15. 阿德朱贝,I。A.等一种用于预测破坏性错义突变的方法和服务器。NAT方法7,248-249,DOI:10.1038 / nmeth0410-248(2010)。
  16. Chun,S.,J. C. Fay。三种人类基因组中有害突变的鉴定。基因组研究19,1553年至1561年(2009年)。
  17. Schwarz,J. M.,C.Rödelsperger,M. Schuelke,D. Seelow。umatationtaster评估序列改变的疾病潜力。Nat方法。7,575-576(2010)。
  18. Reva,B.,Antipin,Y。&Sander,C.预测蛋白质突变的功能影响:癌基因组学的应用。核酸res.39,E118,DOI:10.1093 / NAR / GKR407(2011)。
  19. 董,C。等全外显子组测序研究中非同义SNV有害性预测方法的比较和整合。哼哼摩尔基因242125-2137,内政部:10.1093/hmg/ddu733(2015)。
  20. 卡特,H.,杜维尔,C.,斯滕森,P. D.,库珀,D.N。&Karchin,R.用变体效应评分工具鉴定孟德尔疾病基因。BMC基因组学14补编3,S3,内政部:10.1186/1471-2164-14-S3-S3(2013)。
  21. 蔡勇,西姆斯,g.e.,墨菲,S.,米勒,J. R. &陈,a.p。预测氨基酸取代和吲哚的功能作用。普罗斯一体7,E46688,DOI:10.1371 / journal.pone.0046688(2012)。
  22. Gulko,B.,Hubisz,M. J.,Gronau,I.&Siepel,A。一种计算人类基因组对点突变的健身后果概率的方法。纳特·吉内特47岁,276 - 283 doi: 10.1038 / ng.3196(2015).
  23. Shihab, H. A.等。一种预测非编码和编码序列变化功能效果的一致性方法。生物信息学31,1536-1543,DOI:10.1093 / Bioinformatics / BTV009(2015)。
  24. Quang,D.,Chen,Y.&X,X.DANN:一种深入学习方法yobet亚洲,用于注释遗传变异的致病性。生物信息学31,761-763,DOI:10.1093 / Bioinformatics / BTU703(2015)。
  25. 贝尔,C。J.,D。L丁维迪,N。A.米勒,S。L哈特利,E。E加努索娃,J。米奇,R。J兰利,L。张,C。L李,R。DSchilkey,J。E伍德沃德,H。E佩卡姆,G。P施罗斯,R。W金,S。F金斯莫尔。通过下一代测序对严重儿童隐性疾病进行全面携带者检测。SCI。翻译。Med。365RA64(2011年)。
  26. 柯彻,M., D. M.威腾,P. Jain, B. J. O’roak, G. M. Cooper, J. Shendure。估计人遗传变异性相对致病性的一般框架。NAT。遗传。46,310-315(2014)。
  27. 史沫特莱博士。等全基因组分析框架孟德尔疾病致病变种监管的有效身份证件。美国人类遗传学杂志99, 595-606, doi:10.1016/ j.j. ajhg.2016.07.005(2016)。
  28. Ioannidis,N. M.等人。陶醉:一种预测罕见畸形变种致病性的集合方法。美国人类遗传学杂志99,877-885,DOI:10.1016 / J.AJHG.2016.08.016(2016)。
  29. Jagadeesh,K.A.,A.,A.M.Wenger,M. J. Berger,H.Guturu,P. D. Stenson,D. N. Cooper,J.A.Bernstein,G. Bejerano。M-Cap在高灵敏度下消除了临床展开中不确定意义的大部分变异。自然遗传学48, 1581-1586 (2016).
  30. Grimm,D。G.用来预测错义的冲击工具的评价变体是由两种类型圆阻碍。人类突变36,513-523(2015)。
  31. 他,K.,X.张,S.仁,J. Sun.计算机视觉与模式识别IEEE会议论文集。IEEE.770-778。
  32. 赫弗南等。通过迭代深度学习改善蛋白质的二级结构,局部骨干角和溶剂可接近表面积的预测。yobet亚洲科学培训5, 11476, doi:10.1038/srep11476(2015)。
  33. 王,S.,J.Peng,J.Ma,J.Xu。使用深卷积神经领域的蛋白质二级结构预测。科学报告6,18962-18962(2016)。
  34. Payandeh,J.,Scheuer,T.,Zheng,N.&Catterall,W. A。电压门控钠通道的晶体结构。https://www.nature.com/articles/nature10238.
  35. 沈,H。等近原子分辨率的真核电压门控钠通道的结构。https://science.sciencemag.org/content/355/6328/eaal4326
  36. 中村,K。等SCN2A突变的临床谱扩展到大田原综合征。神经病学81992-998,内政部:10.1212/WNL.0b013e3182a43e57(2013)。
  37. 维瑟斯,L。E.,Gilissen,C.和维尔特曼,J。A.在智力残疾和相关疾病遗传学研究。纳特·雷夫·吉内特17,9-18,内政部:10.1038/nrg3999(2016)。
  38. Neale,B. M.等人。自闭症谱紊乱中exonic de Novo突变的模式和速率。自然485, 242-245, doi:10.1038/nature11011(2012)。
  39. Sanders,S. J.等人。全外显子组测序显示的从头突变与孤独症密切相关。自然485,237-241,DOI:10.1038 / nature10945(2012)。
  40. De Rubeis, S.等。突触,转录和染色质基因打乱了自闭症。自然515,209-215,DOI:10.1038 / Nature13772(2014)。
  41. 解读发育障碍研究。大规模发现发育障碍的新遗传原因。自然519,223-228,DOI:10.1038 / Nature14135(2015)。
  42. 解读发育障碍研究。发育性疾病中从头突变的患病率和结构。自然542, 433-438, doi:10.1038/nature21062(2017)。
  43. Iossifov,I等。从头编码突变对孤独症谱系障碍的贡献。自然515, 216-221, doi:10.1038/nature13908(2014)。
  44. 朱,X.,需要,A。C.,彼得罗夫斯基,S.&戈尔茨坦博士。B一种基因,许多神经精神疾病:孟德尔疾病的课程。Nat Neurosci.17,773-781,DOI:10.1038 / NN.3713(2014)。