摘要
本文介绍了如何Illumina公司联系分析®(ICA)平台被用作建立定制基因组学分析环境的基础。环境管理和处理大量的异质数据集,包括基因组和表型数据。
所有必需的功能都构建在ICA平台组件之上。提供的一些功能包括提取、转换和加载(ETL)和数据仓库中的可伸缩数据存储;既可进行高层数据查询,又可进行底层数据查询,使系统使用灵活、高效;预打包、高级分析,包括工作流规范、分布式数据处理和结果可视化。
最后,我们将对在一致的平台上运行时如何实现各种必需的功能进行评论,并讨论其好处和经验教训。yobet亚洲
介绍
由于可用数据的丰富性和大容量,基因组数据分析的前景变得更加复杂。将基因信息纳入人类医疗保健将在多个领域产生巨大影响,如了解基因在疾病中的作用、遗传学如何影响现有药物反应或开发新药。
为了充分发挥基因组学在医疗保健领域的潜力,研究人员既需要更容易获得的数据,也需要能够方便分析数据的先进系统。
在本文中,我们描述了基于Illumina Connected Analytics的复杂基因组学分析环境所做的工作®(ICA)平台。我们将首先简要介绍这个平台,并进一步介绍环境目标的细节。然后讨论改进和组件构建。我们评论在药物靶点发现研究活动中基因组学分析环境的使用。最后,我们总结经验教训。yobet亚洲
ICA平台
ICA平台是我们构建基因组学分析环境的基础。ICA是一个现代的基于云的平台,能够处理复杂的用例,我们已经通过面向研究的扩展进一步增强了它。该平台提供了构建解决方案所需的所有必要的基础设施和特性,并且可以“开箱即用”地处理许多必需的非功能方面,如加密、备份、云实例供应、审计等。
与我们的工作最相关的ICA组件是:
- 长凳-交互式数据科学环境,可用于研究和自定义的复杂可视化
- 基地–高效、可扩展的数据仓库解决方案,可存储异构数据
- 流动–支持“开箱即用”生物信息学工具的可扩展工作流执行引擎
- 基因组数据存储(GDS)—其他模块使用的文件管理和存储服务
平台的概述如图1所示。
基因组学分析环境(GAE)
分析环境的目标是能够分析遗传标记、表型数据、电子病历(EMR)数据和所需的任何其他参考数据库。这样的分析使各种用例能够指导,例如,药物靶标的识别和发现。
在ICA之上构建GAE使用了平台的所有组件,并需要许多可交付成果:
- 一种管理数据存储的方法,包括以何种格式存储何种类型的数据、用于结构化数据的模式以及如何访问、备份和保护数据。这部分依赖于GDS和基地。
- 以快速且经济高效的方式执行大型复杂计算的工作流。这些工作流程补充了ICA平台提供的现有工作流程(例如使用Dragen、RNA分析等进行变量调用)和项目特定需求。这部分依赖于流动ICA的模块。
- 数据探索部分使用的科学笔记本、源代码模板和示例。一些例子是在与平台组件交互时隐藏细节的包装,这提高了研究人员的效率,并允许他们专注于实际分析。这部分依赖于长凳ICA的模块。
- 在系统中集成的其他可视化。可视化应用程序通过将第三方可视化应用程序集成到板凳工作区,以实现无缝体验,可以协调数据摄取和可视化所需的任何预处理。
GAE的一个重要目标是以方便的方式提供对其分析,查询和可视化的不同抽象级别的访问。研究人员可以在不同的抽象级别轻松开发(或只是检查)任何组件。这使系统提供了很多灵活性,并使研究人员可以调整系统以将系统调整到其需求。好处是:
- 灵活性–研究人员可以创建/修改现有资产
- 开放性——研究人员可以使用不同的方法/算法
- 控制结果可以得到详细的验证
- 效率——研究人员在他们最舒服的抽象层次上工作
抽象级别的概述如图2所示。
要详细描述系统如何运行,我们将使用合成和简化的用例。此用例不应被视为系统的主要目的,而是作为允许系统呈现的教学示例。
用例
出于本文的目的,我们将使用以下假设用例;该研究试图在一群年轻(1965年以后出生)的糖尿病患者中找到基因组中与变异相关的区域,并使用他们的身体质量指数作为协变量。
为了使这种分析成为可能,我们需要基因典型、表型和EMR数据,我们讨论了这些数据是如何摄入和处理的。尽管严格来说,摄取不是用例的一部分,但在许多项目中,它是相关的步骤。选择的数据来源是英国生物银行和FinnGen。
组件
我们将介绍示例用例所需的一些组件。在讨论期间,我们将指出使用ICA平台为此类型的项目使用ICA平台以及如何使用ICA可以加速类似的项目,构建现有代码,经验和模块。
接下来描述的组件可以大致分为ETL和存储组件,它们在项目设置期间和预定义的时刻用于摄取/删除数据。在日常研究活动中使用的查询和分析组件。以及使用可视化分析输出的自定义可视化组件。
英国生物银行表型数据
由于数据的大小和异质性,获取英国生物银行表型数据是一个挑战。数据(此时)有7774个独立字段,具有不同的数据类型(整数、分类、连续、日期等)和特殊特征(例如:不同的编码、不同的收集时间、不同的大小等)。
结构化数据由英国生物银行以文本(加密)格式提供,不适合查询和与其他数据类型集成。
除了结构化数据外,一些字段还链接到原始信息,如需要以不同方式处理的图像和遗传信息(例如:插补基因型、外显子组等)。
关于加载数据,我们做了如下选择:
- 将简单的结构化数据加载到数据仓库系统(基地模块ICA),在多个表中分离,并保留足够的信息,以便在需要时允许与数据库直接交互(例如:在列名中保留字段名和标识符)
- 原始数据分别加载到ICA存储系统中,并根据所使用的工具转换为最合适的格式,同时保持所有数据可用
系统提供了方便的方式(以原始数据文件作为参数的库功能)来完成以下管理任务:
- 添加新数据(例如:某些表型的新测量)
- 删除数据(例如:撤回同意的患者)
列中值的含义由数据编码,在本例中,0表示“否”,1表示“是”,-1表示“不知道”,-3表示“最好不要回答”。
所有必需的信息(原始数据和编码)都以SQL表的形式加载,为了便于阅读,表名和字段名使用实际名称进行了增强。对于上面的例子,所有的实例都存储在同一个列中,比如:
我们将在后面的部分中展示这是如何简化查询的。
值得一提的是,虽然我们在这里展示了一个简单分类数据的示例,但英国生物银行拥有多种类型的数据(整数、浮点、日期、时间等),具有各种特征(例如:实例——收集时间点;数组值——多个测量值等)
ETL-其他GWAS研究
FinnGen是一个完成个性化医疗项目,定期发布数据。该数据包含针对176K样本和针对2444种表型分析的17M变体进行的GWAS研究的结果。FinnGen使用GRCh38基因组版本。
Pan UK BioBank是一套横跨6个祖先组的英国生物银行表型的多祖先分析。这就产生了总计16119项全基因组关联研究的汇总统计数据,并向社会公布。
将位置从一个基因组构建转换到另一个基因组构建并仅存储一组位置将导致信息丢失,因为并非所有位置都可以转换。决定是保留每个数据集的原始坐标(GRCh38和GRCh37),并对缺失的构建进行转换(例如:将FinnGen位置也转换为GRCh37)。这允许完全控制可能导致在执行分析时忽略部分信息的决策。该模式有一个字段(EXTRA),可以存储额外的、特定于研究的信息,如JSON,必要时也可以查询该字段。例如,对于泛英国生物银行,额外字段包含:
{“pval_异质性”:2.11e-01} |
存储的数据的一个例子是(为简洁起见,省略了一些列/值):
分析-查询组件
系统的一个重要方面是允许简单地与数据交互。为此目的,构建了一个抽象层,以隐藏数据存储的细节,同时在需要完全控制时。
最好的例子是英国生物银行表型数据。此数据分布在数据仓库中的多个表中,具有几个特殊性:
- 编码(例如:男性/女性是如何编码的?诊断是如何编码的?等等)。
- 有些数据是在不同的时间点收集的(例如:2005年,然后是2010年),这是一个叫做实例的概念。
- 一些数据以时间序列的形式呈现(例如:医院事件)
您可以看到图3所示的API示例。
此查询显示了抽象的一些特性:
- 对诊断使用不同类型的编码。该示例显示了PheWasCatalog中的PHE代码,但也支持ICD9和ICD10代码。
- 使用字段标题或字段代码。在这个示例中,大多数是字段标题,但对于“出生年份”,代码字段34位于“where”子句中。
- 对所有实例进行测试。在本例中,使用“医生诊断的糖尿病”为“是”的任何实例。
- 使用值而不是编码的值。在“Yes”的例子中,取代了“糖尿病由医生诊断”的数字编码
- 可以根据需要重命名结果数据框的列名
- 可以在条件中组合多个字段,包括“select”和“where”子句
- 可以要求医院发作(ukbb.吩海辛)
API的目的是使研究人员能够更容易地以高级方式查询数据。如果API不能提供特定类型的查询,用户可以使用它作为起点,然后可以调整较低级别的SQL查询以获得想要的结果。对于图3中的查询,完整的SQL查询如图4所示。可以看到,虽然所有的信息仍然存在(字段代码和标题,搜索值,条件,等等),但要阅读和理解最初的意图是什么却困难得多。这仅适用于高级用例,我们不断尝试改进高级API以支持广泛的用例。
分析–GWAS
由于GWAS分析的密集计算需求,全基因组规模的GWAS分析通常不在长凳ICA的模块,但在流动单元提供了库函数(python和R)以使执行GWAS尽可能简单。
过程如下:
必须提供样本队列。这可以通过使用PhenoQuery(如上所述)或通过生成包含表现型值和协变量列表的数据帧的替代方法来完成。
- 设置任何GWA和过滤参数,例如包含/排除区域、质量截止值等。
- 定义相关表型和协变量
- 运行分析
- 查看分析并存储结果以供进一步使用
所有结果都存储在数据仓库中,以与FinnGen和PanUKBioBank数据相同的结构进行进一步分析和存储。这使得查询和搜索功能更加强大,因为您可以一次查询完整的数据集。
执行示例是:
可视化- PheWeb
GAE的主要重点之一是提供多种可能性来分析和可视化人口数据。为此,我们使用了开源应用程序PheWeb。可视化集成在完整流程中,新结果可用时将自动处理。
类别下的各种表型也被定制,以允许一个更容易的导航。如图5所示。
讨论和结论
构建一个复杂的探索系统可能是一项艰巨的任务,特别是在一个数据、工具和理解的发展速度与基因组学一样快的领域。有一个良好的基础是这样一个项目成功的关键。所以,我们可以问:“平台的哪个部分对项目来说是必不可少的?和“我们学到了什么?”yobet亚洲
第一个问题“平台的哪一部分对项目至关重要?”的答案是,以编程方式(通过API)执行任何任务的能力,其结果与人类在GUI中执行相同操作的结果相同。这使我们能够构建越来越复杂的过程,同时让研究人员可以自由地使用基本构建块进行操作。同样重要的是,能够自动管理常见的、易于理解的任务,例如:访问控制、审核、加密、备份、基础架构资源调配等。尽管仍有可能进行调整,经验表明,已经可以提供非常好的违约,这样项目的实际受益人就不需要改变任何东西。
在本项目中,我们了解到,您可以高效地管理大量数据,并在合yobet亚洲理的时间内对其进行分析。一个挑战,特别是在表型数据的情况下,是协调现有标准——如果可用——并使其在研究环境中方便使用。这种使用需要在不同版本和不同用例中组合和链接多个标准和/或本体。虽然映射和转换可以在个案的基础上完成,但拥有一个像GAE这样已经提供了图书馆的系统可以显著提高研究生产率。数据结构和提供的功能的演变将继续,因为在协调所有信息和构建更先进的工具来处理信息方面仍有许多改进需要完成,但这是一个任何实体都无法单独完成的过程。
参考文献
- 英国生物库https://biobank.ndph.ox.ac.uk/ukb/index.cgi
- 芬根研究项目https://www.finngen.fi/en.
- 广泛研究所https://pan.ukbb.broadinstitute.org/
- b.l. r.m.e. a. Denny JC电子病历数据与全基因组关联研究数据的全现象关联研究的系统比较《自然生物技术》2013年12月。
- S. V. P. e. a. Gagliano Taliun利用PheWeb探索和可视化大规模遗传关联自然遗传学,没有。52,pp。550-552,2020。