大规模的公牛基因组测序使家畜快速改良
简介
对牛个体进行全基因组测序(WGS)是利用当前基因组分析技术评估一个牛品种遗传变异的最佳方法。然而,对于大多数育种者和研究人员来说,这一选择仍然超出了经济能力范围。因此,公牛、奶牛和小母牛的常规基因分型是使用更便宜的单核苷酸多态性(SNP)阵列进行的。SNP阵列被设计用来发现与积极生产和健康性状相关的基因变异,或与疾病和其他消极性状相关的基因变异。
2012年,维多利亚农业学院的本·海耶斯博士1他创立了1000公牛基因组计划2帮助全球了解牛的遗传学并促进国际合作。3.该项目的初始运行对来自澳大利亚关键公牛祖先选系的238只动物进行了测序,在HiSeq 3000系统上的平均基因组覆盖率为10.5×。该项目目前包括40个国际合作伙伴、2700只奶制品和牛肉动物,并已识别出近9000万个基因变异。世界各地的研究人员和育种者都从这些数据的发现中受益,包括致命突变的识别4以及在牛中最大规模的序列水平全基因组关联研究(GWAS)。5Hans Daetwyler博士,澳大利亚墨尔本拉筹伯大学和维多利亚农业大学的高级研究员,现在领导着1000公牛基因组计划。他的团队正计划在明年举行另一场比赛,让更多的动物参加。
iccommunity采访了Daetwyler博士,了解该项目是如何产生的,它yobet亚洲的各种发现,以及未来如何使用WGS来识别与其他繁殖物种的积极和消极性状相关的变异。
Hans Daetwyler,博士,澳大利亚墨尔本拉筹伯大学和维多利亚农业高级研究员。
问:什么是1000牛基因组计划?
汉斯Daetwyler (HD):1000牛基因组计划最初是由本·海耶斯博士提出的,他是我在维多利亚农业的老板。当时,对大量动物进行测序成本高昂,这阻碍了它在新旧品种研究中的广泛应用。研究机构没有足够的资金对足够多的个体进行测序,从而实现归因,这在统计上推断出低密度snp -阵列数据中未观察到的基因型。
1000牛基因组联盟背后的想法是比较牛的全基因组序列,包括牛,Bos Indicus和其他Bos物种。当我们发表第一篇论文时,1000头牛基因组计划包括234头牛个体和全球5个合作机构。5从那以后,我们几乎每年都会进行新一轮的分析。每次运行都会增加更多的动物,更多的合作机构加入该项目。到目前为止,我们已经对2700多种动物进行了测序。
问:当1000公牛基因组计划开始时,你扮演什么角色?
高清:我为项目的前几年进行了数据分析。合作伙伴将他们的全基因组序列与参考基因组相匹配。我们分析了BAM文件,组合了数据,并运行了一个变体调用程序来识别数据集中的snp和索引。我们向合作伙伴提供了项目中所有动物的原始和过滤的snp及其相关基因型的列表。我们今天继续这一进程。
当海耶斯博士在2016年搬到昆士兰大学时,我接任了1000公牛基因组计划指导委员会主席。
“如果农民在小牛出生或很小的时候就有了更准确的EBV,他们就可以比其他方式更早地选择和使用这些个体进行繁殖。它将奶牛的世代间隔从5-6年缩短到2年。”
问:研究人员使用了什么工具和方法来确定因果变量?
高清:十年前,他们使用低密度SNP阵列来识别相关的遗传区域,并可能对该区域进行定向测序以识别其他变体。当时,测序是一个缓慢而昂贵的过程。研究人员可能会使用较早的NGS技术进行靶向测序,然后只对他们怀疑是数量性状位点(QTL)携带者的动物进行测序。他们没有参考基因组,所以他们不知道从哪里寻找,也不知道涉及的基因数量。使用这种方法,他们可能只识别出了少数突变。
1000公牛基因组计划数据库包含了许多动物的全基因组序列。它显著加速了因果突变的发现过程,并提高了世界范围内畜群的遗传收益。
问:为什么提高奶牛和肉牛的遗传增益率很重要?
高清:除了营养和健康管理外,遗传变化是提高畜群内生产力和效率以及改善健康福利性状的一个主要组成部分。遗传增益是累积的。随着时间的推移,它就像复利一样。每当你在基因上做出有利于更好表现或改善健康和福利的积极改变时,它就会留在群体中,积极的影响就会加剧。随着时间的推移,农民相当重要的一部分努力都花在了提高畜群的生产力上。
问:与以前的选择育种方法相比,基因组选择的好处是什么?
高清:在基因组学出现之前,农民使用表型选择,这涉及到观察个体及其后代,并根据其特征选择个体进行育种。他们还会使用系谱选择,也就是使用近亲的信息。
基因组选择的力量在于它将这些信息与远亲的生产、效率和健康数据结合起来。基因组选择导致估计育种值(EBV)的准确性的增加,特别是对年轻个体。如果农民在犊牛出生或很小的时候就有了更准确的EBV,他们就可以比其他方式更早地自信地选择和使用这些个体进行繁殖。将奶牛的世代间隔从5-6年缩短到2年。
问:有多少比例的牛牲畜饲养者正在使用基因组选择来改善他们的畜群?
高清:基因组选择在奶牛场和肉牛场的应用是不同的。与表型选择相反,基因组选择可以使用没有女儿的年轻公牛。在过去的几年里,使用这些经过基因组测试的年轻父系的人数急剧增加。在一些国家,人工授精(AI)的比例超过80%。在澳大利亚,大约40%的人使用经过基因组测试的祖先。在澳大利亚牛肉中,这一比例将低于乳制品,但在北美的主要牛肉品种中,这一比例又要高很多。
“该项目中的所有动物都已经或将按照加州大学戴维斯分校农业研究服务中心的新参考基因组进行重新排列。我们希望未来能为每个人提供更好的数据。”
问:与Sanger测序相比,用NGS测序祖先牛的价值是什么?
高清:只有当你拥有由NGS全基因组序列组成的大型数据集时,才有可能搜索因果或近因果突变。与桑格测序相比,NGS使我们能够以更低的价格对更多的动物进行测序。NGS提高了imputation的准确性和效率,我们可以推断只有SNP阵列基因型评估的个体的序列表型。这是最大的优势。
NGS的好处也影响了功能基因组研究。RNA-Seq和带有NGS的染色质免疫沉淀(ChIP)-Seq提供了一组个体的功能信息。我们利用这些信息来寻找近因果突变,然后直接进行基因分型。这些突变的基因分型也直接提高了跨品种和与训练人群关系较小的个体的预测准确性。
问:如何确定关键的祖先牛?
高清:有几种方法用于识别关键的祖先公牛。主要的方法是选择一个谱系,并确定哪些个体解释了该谱系中的大部分遗传变异。更新的方法使用基因型甚至单倍型在该种群中寻找多样性。关键祖先的选择取决于他们是否拥有最多的单倍型或在群体中代表的单倍型集的强补充。另一种方法是观察那些单倍型的个体,这些单倍型在测序的个体集合中没有被覆盖。
问:已经测序的个体总数是多少?哪些牛品种被包含在1000牛基因组数据库中?
高清:我们已经超过了1000人的最初目标。在上一轮分析中,我们有超过2700多头多头,我们即将开始一轮1000多头多头的新一轮分析。该项目中的所有动物都已经或将按照加州大学戴维斯分校(University of California, Davis)农业研究服务中心的新参考基因组进行重新排列。我们希望未来能为每个人提供更好的数据。
在1000个公牛基因组数据库中,乳制品品种组略多于牛肉品种组。该项目的主要品种群是荷斯坦,约占20%。安格斯是第二大集团,其次是布朗瑞士银行。我们的数据库中也有双重用途的牛,包括西门塔尔和弗莱克维耶。最近,已经有不少了Bos indicus包括来自澳大利亚的Brahman。
问:1000牛基因组团队已经发现了多少新的牛标记?
高清:在我们开始1000公牛基因组计划之前,研究人员在他们的分析中使用了多达60万个变种。在我们对240只动物进行的第一轮试验中,我们确定了2500万到2700万个snp和内链金牛座一个人。我们现在大概有四千万牛个人只。当你包括Bos indicus牛,牦牛和其他亚种,大约有8000万个过滤过的变种。
“通过在动物育种中更早地使用WGS数据,1000头公牛基因组数据库加快了牛研究的步伐。”
问:1000个公牛基因组数据库对研究人员有什么价值?
高清:1000公牛参考基因组数据集对研究人员有两方面的价值。首先,研究人员可以将其作为参考集,在具有SNP阵列基因型的群体个体的数据集中输入全基因组序列。然后,他们可以执行强大的GWAS,并研究利用WGS的不同基因组选择方法。4
它还使研究人员能够寻找致病或致命的隐性疾病突变。使用1000个牛基因组数据集作为对照,研究人员可以使用过滤策略将搜索范围缩小到一个小的基因组区域。
问:世界上任何地方的研究人员都可以使用这个数据库吗?
高清:加入该项目并同意与该联盟共享数据的研究机构可以使用1000个公牛基因组数据库。使用这些数据进行的研究类型几乎没有限制。然而,该联盟的研究人员不允许在他们的机构之外分享数据。例如,如果一个研究人员有一个合作者,他想要分析1000个公牛基因组的数据,合作者就必须成为项目的成员。
目前,我们在全球有38家机构参与该项目。1000公牛基因组计划已经促成了几项重要的合作。这是它的持久遗产之一。
问:1000公牛基因组数据库有哪些发现?
高清:1000个公牛基因组数据库中的WGS数据非常有价值,支持了许多应用育种和研究研究。研究人员已经使用1000个公牛基因组数据库来识别几种产奶性状的阳性变异。6使用这些数据还发现了一些因果突变。例如,我们的法国合作者发现了胚胎致命突变的因果突变,尽管我们知道它们的存在,但之前没有发现过。7
序列级GWAS提高了我们对特征结构的理解,支持了功能研究。例如,WGS数据可以用于QTL研究。研究人员还使用WGS数据来识别和确定SNP集的优先级,以改进基因组预测。8 - 11
“HiSeq系统提供高吞吐量,因此我们可以以较低的价格执行WGS、RNA-Seq和ChIP-Seq。数据质量非常好,这些系统一直是我们WGS的主力。”
问:这些发现对育种者有何影响?
高清:通过在动物育种中更早地使用WGS数据,1000头公牛基因组数据库加快了牛研究的步伐。致命突变的发现对育种者产生了直接的积极影响。当突变被发现后,它们立即被添加到SNP阵列中,以识别畜群中的携带者。在人工智能过程中,这些个体被挑选出来对抗,这减少了群体中致命突变的频率。
我们现在有一个更完整的SNP和所有种群的indel变异的目录,并能够设计更好的SNP阵列。而不是依赖随机snp出现的频率“足够好”来推断它们是因果关系,我们可以用我们知道的因果关系和直接影响性状的snp丰富数组。
问:你使用哪种NGS系统来执行WGS?
高清:我们使用两个HiSeq 3000系统和MiSeq和NextSeq 500系统进行测序。HiSeq系统提供高吞吐量,因此我们可以以较低的价格执行WGS, RNA-Seq和ChIP-Seq。数据质量非常好,这些系统一直是我们WGS的主力。我们使用MiSeq系统的应用程序,我们需要稍微长一点的读取。
我们正在研究是否将HiSeq系统升级为NovaSeq 6000系统,这将使我们能够在一台仪器上通过测序(GBS)进行大规模的WGS和基因分型。
问:通过测序1000个基因组来创建物种数据库的1000牛基因组方法是否用于其他牲畜或植物物种?
高清:我们正在一个类似的羊项目中使用这种方法,sheepgenomic esdb。12我们已经对935只羊进行了测序,从NCBI或EBI的短读序列档案中下载了原始数据,并与新西兰的AgResearch和布里斯班的CSIRO等合作伙伴一起进行了处理。我们执行了变量调用,创建了*。vcf文件中包含了基因、snp和indels,并在欧洲变体档案中发表了数据。13
我认为这个概念在植物中也有价值。我肯定它被用在拟南芥在一些主要作物中也是如此。然而,有些植物的基因组非常大。小麦基因组有170亿碱基对。这使得执行WGS的成本更高,并使得共享数据变得势在必行。我们已经对小麦进行了外显子组测序,部分原因是价格较低。相比之下,油菜的基因组很短,只有12亿碱基对。这使得执行WGS相对便宜,即使是在10×的条件下。
植物的另一个问题是,有些物种是多倍体,这使得测序和基因组组装变得复杂。多倍体植物在亚基因组之间有同源区域,其中较短的reads可以映射到两个、三个或四个不同的地方,而且精确度相当。通常,多倍体植物基因组的质量低于动物或人类基因组。
测序可能会变得非常便宜,以至于GBS将取代SNP阵列。更高的产量和更低的价格可能会改变未来的成本结构。”
问:你认为GBS会取代SNP阵列基因分型吗?
高清:目前,大多数牛和羊的常规基因分型都是用SNP阵列进行的,目前SNP阵列以低于GBS的价格提供高质量的数据。GBS存在一些问题,因为它的低覆盖率测序很难区分序列错误和真正的等位基因。与基于序列的基因分型相比,SNP芯片还能够提取质量较低的DNA,这有助于工业应用。
话虽如此,我对未来GBS或SNP阵列是最好的持开放态度。我专注于任何以最低价格提供高质量数据的方法。测序可能会变得非常便宜,以至于GBS将取代SNP阵列。更高的产量和更低的价格可能会改变未来的成本结构。
问:1000牛基因组计划的下一步是什么?
高清:我们正在撰写一篇关于新一轮测序、数据分析和参考基因组的论文。我们所有38个合作机构也在发布数据。
我们已经测试了几种不同的调用器,并将从SAMtools转移到GATK单倍类型调用器14下一轮的分析。我们将把1000个牛基因组数据库增加到3000多个牛基因组,并将包括更多的公共数据。我们希望,随着我们转向新的、更大的参考基因组,我们将看到数据质量的提高和改进的归责性,以提供更好的结果。
yobet亚洲亚博官网人口了解本文中提到的系统的更多信息:
参考文献
- 农业维多利亚,agriculture.vic.gov.au /农业.2019年1月3日进入。
- 1000公牛基因组计划,www.1000bullgenomes.com/.2019年1月3日进入。
- Hayes BJ和Daetwyler HD。1000牛基因组计划绘制牛的简单和复杂遗传性状:应用和结果。生物科学.doi: 10.1146 / annurev -动物- 020518 - 115024。Epub先于印刷。
- 鲍曼AC, Daetwyler HD,张伯伦JA,等。对牛身高全基因组关联研究的元分析确定了调节哺乳动物体型的共同基因。Nat麝猫.2018; 50:362−367。
- Daetwyler HD, Capitan A, Pausch H,等。对234头公牛的全基因组测序有助于对牛的单基因和复杂性状进行定位。Nat麝猫。2014; 46:858−865。
- 王晓燕,王晓燕,王晓燕,等。对三个牛品种的基于序列的关联研究进行meta分析,揭示了25个核苷酸分辨率的牛奶中脂肪和蛋白质百分比的QTL。BMC基因组学.2017; 18:853。
- Michot P, Fritz S, Barbat A,等。PFAS(磷酸核糖基甲酰甘氨酸合成酶)的错义突变可能是导致Montbéliarde奶牛中与MH1单倍型相关的胚胎死亡的原因.J乳品科学.2017; 100:8176−8187。
- 陈晓燕,陈晓燕,陈晓燕,等。从全基因组序列数据中提取的数量性状位点标记增加了基因组预测的可靠性。J乳品科学.2015; 98:4107−4116。
- VanRaden PM, Tooker ME, O 'Connell JR等人。选择序列变异以改善奶牛的基因组预测.麝猫选取另一个星球.2017; 49:32。
- Raymond B, Bouwman AC, Schrooten C,等。全基因组序列数据在跨品种基因组预测中的应用。麝猫选取另一个星球。2018; 50:27。
- 麦克劳德,鲍曼,范德杰,等。利用生物前驱和序列变异可以提高复杂性状的QTL发现和基因组预测能力.BMC基因组学.2016; 17:144。
- 绵羊基因组数据库,绵羊基因组社区资源,sheepgenomesdb.org/.2019年1月3日进入。
- 欧洲变异存档,www.ebi.ac.uk / eva /.2019年1月3日进入。
- GATK。单倍型调用者-调用种系snp和单倍型局部重组的内嵌。software.broadinstitute.org/gatk/documentation/tooldocs/3.8-0/org_broadinstitute_gatk_tools_walkers_haplotypecaller_HaplotypeCaller.php。2018年11月29日。