介绍
数以百万计的人类基因组和外显子已被测序,但由于难以区分致病突变和良性基因变异,它们的临床应用仍然有限1,2. 由于其对健康的有害影响,具有临床意义的遗传变异在人群中极为罕见3..因此,在人口中的高频处的变体观察是有利于良性后果的强烈证据2,4,通过消除过程来系统地鉴定致病性突变。测定各种人口的常见变化是对良性变异的目录的有效策略5.,但是当今人类的常见变异总量有限。在参考基因组中出现超过7000万潜在的密码变体,仅在1000次以上的总体群体等位基因频率频率大约15,6.
除了现代人类之外,黑猩猩是现存的第二接近物种,它们拥有99.4%的氨基酸序列相同性7.. 人类和黑猩猩蛋白质编码序列的相似性表明,对黑猩猩蛋白质编码变体进行的自然选择也可能对人类相同突变的适应性产生影响。如果状态相同的多态性同样影响两个物种的适应性,那么黑猩猩群体中高等位基因频率的变异的存在应该表明人类的良性后果,大大扩展了已知良性变异的目录。这就形成了需要用黑猩猩变种来验证的假设。
我们证明普通的灵长类动物变异往往是人类人口良性。利用数十万个常见变体从人口序列的六种非人类灵长类动物种类作为培训数据,我们开发了Primateai,这是一种深度神经网络,其预测具有高精度的致病性突变。
其他灵长类动物的常见变异在人类中基本上是良性的
外显子组聚合联合体(ExAC)和基因组聚合数据库(gnomAD)中收集的123136人的聚合外显子组数据的最新可用性使我们能够测量自然选择对等位基因频率谱中错义和同义突变的影响5..单变体(在队列观察到仅一次)紧密地匹配预期2.2:1的错义:通过预测同义比从头调整混杂因子后的突变(图1A)8.,但在更高的等位基因频率观察到的错义的数变异降低由于有害突变的自然选择吹扫。
Primate variants were obtained from the great ape genome sequencing project and dbSNP9,10.我们首先检查了与人类变体相同状态的常见的黑猩猩变体(图1B),并发现了对人类等位基因频谱的同义比率在很大程度上是恒定的,这与对共同的黑猩猩的缺乏负面选择一致人口中的变异。低畸形:与普通黑猩猩变体相同的人类变体中观察到的同义比率与黑猩猩的较大的有效种群大小一致,这使得能够更有效地过滤温和的有害变化11,12..
我们接下来鉴定了具有相同状态的人变体,其在六种非人类灵长类动物中的至少一种中观察到的变异。六种物种中的每一个的变化很大程度上代表了基于有限数量的序列测序的常见变体,并且低畸形:对每个物种观察到的同义比率。类似于黑猩猩,我们发现六种非人灵长类动物物种的变体的异构率的同义比率在人类等位基因频谱上大致相等,除了普通等位基因频率下的畸形变异(图2),预期是由于包含少数罕见的罕见变种。
变体致病性分类yobet亚洲的深度学习网络
临床应用的变异分类的重要性激发了许多使用监督机器学习的众多尝试解决问题,但这些努力因缺乏充分规模的真相数据集而受到阻碍,其中包含了被自信标记的良性和致病型培训的良性和致病型号yobet亚洲14 - 24.现有人类专家策疗变体数据库涵盖了基因组的一小部分,ClinVar数据库中的〜50%来自200个基因(〜1%的人蛋白质编码基因)。此外,系统研究表明,许多人的专家注释具有可疑的支持证据5,25,强调了解释可能仅在单个患者中观察到的罕见变异的难度。为了减少人类的解释偏差,最近的分类器已经被训练成常见的人类多态性或固定的人类-黑猩猩替换每股26到29但是,这些分类器也用作他们输入的预测分数,这些分数在人类策划数据库上培训。客观的基准,这些方法的性能在没有独立的无偏见的真理数据集的情况下难以捉摸30..
来自六种非人灵长类动物(黑猩猩、倭黑猩猩、大猩猩、猩猩、恒河猴和狨猴)的变异产生了超过300000个独特的错义变异,这些变异与普通人类变异不重叠,并且在很大程度上代表了经过净化选择筛选的良性后果的普通变异,大大扩展了机器学习方法可用的训练数据集。平均而言,每个灵长类物种贡献了相当于50K个变种,比整个ClinVar数据库中当前的总数还要多。此外,该内容在人类解释中没有偏见。yobet亚洲
使用的数据集,包括常见的人类变体和灵长类的变化,我们培养了新颖深剩余网络,PrimateAI(https://github.com/Illumina/PrimateAI),它作为输入的氨基酸序列侧翼的利益和变体在其他物种中的正交序列比对(图4A)31..与采用人工工程功能的现有分类器不同,我们的深度学习网络学会直接从主要序列中提取功能。yobet亚洲为了纳入有关蛋白质结构的信息,我们训练了单独的网络,以预测单独的序列的二次结构和溶剂可访问性32,33,然后这些包括如在完整模型(4B图)子网络。给定数量少的人蛋白质的已成功结晶,从一级序列推断结构具有避免偏差的优点由于不完全蛋白质结构和功能结构域的注释。网络的总深度,与蛋白质的结构包括,被卷积的36层,由大致400000可训练参数。
要使用仅使用良性标签的变体训练分类器,我们将预测问题置于预测问题中,因为是否可能被观察到给定突变作为人群中的常见变体。几个因素影响了观察高位等级频率的变种的可能性,其中我们只感兴趣地对有害性感兴趣。我们将良性培训中的每种变种与未标记的小密义突变相匹配,控制着混淆因素,并培训了深入学习网络,区分良性变异和匹配的控制yobet亚洲8..随着未标记的变体的数量大大超过标有良性训练数据集的大小,我们训练了八个网络并行,每个网络都使用与良性训练数据集相匹配的不同的未标记变体,以获得共识预测。
致病性预测实例
深度学习网络仅使用初级氨基酸序列作为输入,精确地将高致病性评分分配给关键蛋白质功能域的残基,如电压门控钠通道SCN2A(图5yobet亚洲)所示,该基因是癫痫、自闭症和智力残疾的主要疾病基因。SCN2A的结构由四个同源重复序列组成,每个重复序列包含六个跨膜螺旋(S1-S6)34,35. 膜去极化后,带正电的S4跨膜螺旋向膜的细胞外侧移动,导致S5/S6成孔域通过S4-S5连接体打开。临床上与早发性癫痫性脑病相关的S4、S4-S5连接子和S5结构域突变36.,通过网络预测到基因中具有最高的致病性分数,并且耗尽健康人群中的变体。
我们的结果表明,系统的灵长类种群测序是一种有效的策略,可以对目前限制临床基因组解释的数百万具有不确定意义的人类变体进行分类。随着用于训练网络的良性变异体数量的增加,我们的深入学习网络在普通灵长类变异体和临床变异体方面的准确性也随之增加。对其他灵长类物种的常见变异进行编目将改善对数百万具有不确定意义的变异的解释,进一步提高人类基因组测序的临床实用性。yobet亚洲
致谢
我们要感谢J. K. Pritchard、M. E. Hurles、J. W. Belmont和R. E. Green进行了富有洞察力的讨论。我们要感谢基因组聚合数据库(gnomAD)和为该资源提供外显子组和基因组变异数据的小组。李彦军、李晓琳部分获得国家普通医学研究所和国家科学基金R01GM110240 (no . CNS- 1747783, no . CNS- 1624782, no . OAC-1229576)资助。我们要感谢原论文的作者,包括Laksshman Sundaram, Samskruthi Reddy Padigepati, Jeremy F. McRae, Yanjun Li, Jack A. Kosmicki, Nondas Fritzilas, Jorg Hakenberg, Anindita Dutta, John Shon, Jinbo Xu, Serafim Batzloglou和Xiaolin Li。
外部链接
出版物:https://pubmed.ncbi.nlm.nih.gov/30038395/
软件:https://github.com/Illumina/PrimateAI
来自大猿基因组项目的灵长类多态性:
https://eichlerlab.gs.washington.edu/greatape/data.html
从dbSNP数据库:https://www.ncbi.nlm.nih.gov/snp/
灵长类ai有7000万种变异:https://basespace.illumina.com/s/cPgCSmecvhb4
参考
- D. G.麦克阿瑟等。人类疾病中序列变异因果关系调查指南。自然508469-476,内政部:10.1038/nature13127(2014)。
- 雷姆,H。L.,J。s贝格,L。D布鲁克斯,C。D布斯塔曼特,J。P埃文斯,M。J兰德鲁姆,D。H莱德贝特,D。R马格洛特,C。L马丁,R。L努斯鲍姆,S。E普隆,E。M拉莫斯,S。T雪莉,M。s沃森。Clingen - 临床基因组资源。心血管病。j .地中海。372,2235-2242(2015)。
- Bamshad, M. J., S. B. Ng, A. W. Bigham, H. K. Tabor, M. J. Emond, D. A. Nickerson, J. Shendure。Exome测序作为孟德利亚病基因发现的工具。纳特。牧师。吉内特。12,745-755(2011)。
- Richards,S.等。序列变体解释的标准和指导方针:美国医学遗传学和基因组学学院的联合共识建议和分子病理学协会。遗传医学17405-424,内政部:10.1038/gim.2015.30(2015)。
- 列克,M。等60,706人的蛋白质编码遗传变异分析。自然536285-291,内政部:10.1038/nature19057(2016)。
- 刘,X.,X. Jian,E. Boerwinkle。dbNSFP:人类非同义snp及其功能预测的轻量级数据库。.人类突变32,894-899(2011)。
- 黑猩猩测序分析联盟。黑猩猩基因组的初始序列和人类基因组的比较。自然437,69-87,DOI:10.1038 / Nature04072(2005)。
- Samocha,K.E.等人。解释人类疾病中义目突变的框架。纳特·吉内特46,944-950,DOI:10.1038 / NG.3050(2014)。
- 雪利酒,S.T等人。dbSNP: NCBI遗传变异数据库。核酸res.29,308-311,DOI:10.1093 / NAR / 29.1.308(2001)。
- Prado-Martinez,J.等。类人猿基因组多样性和种群历史。自然499,471-475(2013)。
- 木村,M.分子演化中立理论。剑桥大学出版社,1983年出版社
- 德曼努埃尔,M。等黑猩猩基因组多样性揭示了古代蒙皮斯的僵尸。科学354,477-481,DOI:10.1126 / Science.Aag2602(2016)。
- 兰德鲁姆,M。J等临床相关变异解释的公共档案。核酸res.44,D862-868,内政部:10.1093/nar/gkv1222(2016)。
- NG,P. C.&Henikoff,S。预测有害氨基酸取代。基因组研究11,863-874,DOI:10.1101 / GR.176601(2001)。
- 阿德朱贝,I。A.等一种用于预测破坏性错义突变的方法和服务器。NAT方法7,248-249,DOI:10.1038 / nmeth0410-248(2010)。
- Chun,S.,J. C. Fay。三种人类基因组中有害突变的鉴定。基因组研究19,1553年至1561年(2009年)。
- Schwarz,J. M.,C.Rödelsperger,M. Schuelke,D. Seelow。umatationtaster评估序列改变的疾病潜力。Nat方法。7,575-576(2010)。
- Reva,B.,Antipin,Y。&Sander,C.预测蛋白质突变的功能影响:癌基因组学的应用。核酸res.39,E118,DOI:10.1093 / NAR / GKR407(2011)。
- 董,C。等全外显子组测序研究中非同义SNV有害性预测方法的比较和整合。哼哼摩尔基因242125-2137,内政部:10.1093/hmg/ddu733(2015)。
- 卡特,H.,杜维尔,C.,斯滕森,P. D.,库珀,D.N。&Karchin,R.用变体效应评分工具鉴定孟德尔疾病基因。BMC基因组学14补编3,S3,内政部:10.1186/1471-2164-14-S3-S3(2013)。
- 蔡勇,西姆斯,g.e.,墨菲,S.,米勒,J. R. &陈,a.p。预测氨基酸取代和吲哚的功能作用。普罗斯一体7,E46688,DOI:10.1371 / journal.pone.0046688(2012)。
- Gulko,B.,Hubisz,M. J.,Gronau,I.&Siepel,A。一种计算人类基因组对点突变的健身后果概率的方法。纳特·吉内特47岁,276 - 283 doi: 10.1038 / ng.3196(2015).
- Shihab, H. A.等。一种预测非编码和编码序列变化功能效果的一致性方法。生物信息学31,1536-1543,DOI:10.1093 / Bioinformatics / BTV009(2015)。
- Quang,D.,Chen,Y.&X,X.DANN:一种深入学习方法yobet亚洲,用于注释遗传变异的致病性。生物信息学31,761-763,DOI:10.1093 / Bioinformatics / BTU703(2015)。
- 贝尔,C。J.,D。L丁维迪,N。A.米勒,S。L哈特利,E。E加努索娃,J。米奇,R。J兰利,L。张,C。L李,R。DSchilkey,J。E伍德沃德,H。E佩卡姆,G。P施罗斯,R。W金,S。F金斯莫尔。通过下一代测序对严重儿童隐性疾病进行全面携带者检测。SCI。翻译。Med。365RA64(2011年)。
- 柯彻,M., D. M.威腾,P. Jain, B. J. O’roak, G. M. Cooper, J. Shendure。估计人遗传变异性相对致病性的一般框架。NAT。遗传。46,310-315(2014)。
- 史沫特莱博士。等全基因组分析框架孟德尔疾病致病变种监管的有效身份证件。美国人类遗传学杂志99, 595-606, doi:10.1016/ j.j. ajhg.2016.07.005(2016)。
- Ioannidis,N. M.等人。陶醉:一种预测罕见畸形变种致病性的集合方法。美国人类遗传学杂志99,877-885,DOI:10.1016 / J.AJHG.2016.08.016(2016)。
- Jagadeesh,K.A.,A.,A.M.Wenger,M. J. Berger,H.Guturu,P. D. Stenson,D. N. Cooper,J.A.Bernstein,G. Bejerano。M-Cap在高灵敏度下消除了临床展开中不确定意义的大部分变异。自然遗传学48, 1581-1586 (2016).
- Grimm,D。G.用来预测错义的冲击工具的评价变体是由两种类型圆阻碍。人类突变36,513-523(2015)。
- 他,K.,X.张,S.仁,J. Sun.计算机视觉与模式识别IEEE会议论文集。IEEE.770-778。
- 赫弗南等。通过迭代深度学习改善蛋白质的二级结构,局部骨干角和溶剂可接近表面积的预测。yobet亚洲科学培训5, 11476, doi:10.1038/srep11476(2015)。
- 王,S.,J.Peng,J.Ma,J.Xu。使用深卷积神经领域的蛋白质二级结构预测。科学报告6,18962-18962(2016)。
- Payandeh,J.,Scheuer,T.,Zheng,N.&Catterall,W. A。电压门控钠通道的晶体结构。https://www.nature.com/articles/nature10238.
- 沈,H。等近原子分辨率的真核电压门控钠通道的结构。https://science.sciencemag.org/content/355/6328/eaal4326
- 中村,K。等SCN2A突变的临床谱扩展到大田原综合征。神经病学81992-998,内政部:10.1212/WNL.0b013e3182a43e57(2013)。
- 维瑟斯,L。E.,Gilissen,C.和维尔特曼,J。A.在智力残疾和相关疾病遗传学研究。纳特·雷夫·吉内特17,9-18,内政部:10.1038/nrg3999(2016)。
- Neale,B. M.等人。自闭症谱紊乱中exonic de Novo突变的模式和速率。自然485, 242-245, doi:10.1038/nature11011(2012)。
- Sanders,S. J.等人。全外显子组测序显示的从头突变与孤独症密切相关。自然485,237-241,DOI:10.1038 / nature10945(2012)。
- De Rubeis, S.等。突触,转录和染色质基因打乱了自闭症。自然515,209-215,DOI:10.1038 / Nature13772(2014)。
- 解读发育障碍研究。大规模发现发育障碍的新遗传原因。自然519,223-228,DOI:10.1038 / Nature14135(2015)。
- 解读发育障碍研究。发育性疾病中从头突变的患病率和结构。自然542, 433-438, doi:10.1038/nature21062(2017)。
- Iossifov,I等。从头编码突变对孤独症谱系障碍的贡献。自然515, 216-221, doi:10.1038/nature13908(2014)。
- 朱,X.,需要,A。C.,彼得罗夫斯基,S.&戈尔茨坦博士。B一种基因,许多神经精神疾病:孟德尔疾病的课程。Nat Neurosci.17,773-781,DOI:10.1038 / NN.3713(2014)。