跳到内容
Illumina Connected Analytics® (ICA)平台被用作构建定制基因组学分析环境的基础。环境管理和处理大量异质数据集,包括基因组和表型数据。

所有必需的功能都建立在ICA平台组件之上。提供的一些功能包括提取、转换和加载(ETL)以及数据仓库中的可伸缩数据存储;同时进行高、低级别数据查询,使系统灵活高效地使用;预包装的高级分析,包括工作流规范、分布式数据处理和结果可视化。

我们将总结如何实现各种所需的功能,并讨论在一致的平台上运行的好处和经验教训yobet亚洲">

数据解决方案增强人口基因组学研究

Vlad-Mihai Sima, Thon de Boer

分享本文

摘要

本文将介绍如何Illumina Connected Analytics®以ICA平台为基础,在此基础上构建定制化的基因组分析环境。环境管理和处理大量异质数据集,包括基因组和表型数据。

所有必需的功能都构建在ICA平台组件之上。提供的一些功能包括提取、转换和加载(ETL)以及数据仓库中的可伸缩数据存储;同时进行高、低级别数据查询,使系统灵活高效地使用;预包装的高级分析,包括工作流规范、分布式数据处理和结果可视化。

最后,我们将评论实现各种所需功能如何利用在一致平台上运行的优势,并讨论从中获得的好处和经验教训。yobet亚洲

介绍

由于可用数据的丰富性和海量,基因组数据分析的前景正变得越来越复杂。将遗传信息纳入人类医疗保健将在各个领域产生巨大影响,例如了解基因在疾病中发挥的作用,遗传如何影响现有的药物反应或开发新药。

为了充分发挥基因组学在医疗保健领域的潜力,研究人员既需要更容易获得的数据,也需要可以轻松分析数据的先进系统。

在本文中,我们将描述基于Illumina Connected Analytics的复杂基因组学分析环境所做的工作®(ICA)平台。我们将首先简要介绍这个平台,并进一步详细说明环境的目标。然后讨论改进和组件构建。我们对基因组学分析环境在药物靶点发现研究活动中的使用进行了评论。我们总结了吸取的教训。yobet亚洲

ICA平台

ICA平台是我们构建基因组分析环境的基础。ICA是一个现代的基于云的平台,可以解决复杂的用例,我们通过面向研究的扩展进一步增强了它。该平台提供了构建解决方案所需的所有必要基础设施和特性,并“开箱即用”地处理了许多必需的非功能性方面,如加密、备份、云实例配置、审计等。

与我们的工作最相关的ICA组成部分是:

  • 板凳上-一个交互式数据科学环境,可用于研究和定制,复杂的可视化
  • 基地—高效、可扩展的异构数据仓库解决方案
  • -可扩展的工作流执行引擎,支持“开箱即用”生物信息学工具
  • 基因组数据存储(GDS)-文件管理和存储服务,供所有其他模块使用

在图1中可以看到该平台的概述。

图1。ICA概述

基因组学分析环境(GAE)

分析环境的目标是能够分析遗传标记、表型数据、电子病历(EMR)数据和所需的任何其他参考数据库。这样的分析使各种用例能够指导,例如,药物目标的识别和发现。

在ICA之上构建GAE需要使用平台的所有组件,并且需要许多可交付成果:

  • 一种管理数据存储的方法,包括以何种格式存储何种类型的数据,结构化数据使用何种模式,以及如何访问、备份和保护数据。这部分依赖于GDS和基地
  • 工作流,以快速和具有成本效益的方式执行大型、复杂的计算。这些补充了ICA平台提供的现有工作流集(例如使用Dragen的变体调用,RNA分析等),并满足了项目特定的需求。这部分依赖于ICA模块。
  • 科学笔记本和源代码模板和例子中使用的数据探索部分。一些例子是在与平台组件交互时隐藏细节的包装器,这提高了研究人员的效率,使他们能够专注于实际的分析。这部分依赖于板凳上ICA模块。
  • 附加的可视化集成在系统中。通过将第三方可视化应用程序集成到Bench工作空间中,可视化应用程序编排可视化所需的数据摄取和任何预处理,以实现无缝体验。

GAE的一个重要目标是以一种方便的方式为其分析、查询和可视化提供对不同抽象级别的访问。研究人员可以在不同的抽象级别上轻松地开发(或检查)任何组件。这给了系统很大的灵活性,并使研究人员,如果需要,调整系统以满足他们的需要。好处是:

  • 灵活性——研究人员可以创建/修改现有资产
  • 开放性——研究人员可以使用不同的方法/算法
  • 控制结果可以得到详细的验证
  • 效率——研究人员在他们最舒服的抽象水平上工作

抽象级别的概述如图2所示。

为了详细描述系统如何工作,我们将使用一个综合和简化的用例。这个用例不应该被视为系统的主要目的,而应该被视为允许系统表示的教学示例。

图2。不同的抽象级别

用例

出于本文的目的,我们将使用以下假设用例;该研究试图在一组被诊断为糖尿病的年轻(略)患者(1965年以后出生)中找到基因变异相关的基因组区域,并使用他们的身体质量指数作为协变量。

为了使这样的分析成为可能,我们需要基因型、表型和EMR数据,我们讨论了这些数据是如何摄入和处理的。尽管摄取不是严格意义上的用例的一部分,但在许多项目中,它是一个相关的步骤。所选数据来源为英国生物银行和fingen。

组件

我们将展示示例用例所需的一些组件。在讨论中,我们将指出在这类项目中使用ICA平台的好处,以及使用ICA如何在现有代码、经验和模块的基础上加速类似项目。

下面描述的组件可以大致分为ETL和存储组件,它们在项目设置期间和在预定义的时间点用于摄取/删除数据。日常研究活动中使用的查询和分析组件。并自定义可视化组件使用可视化分析输出。

ETL -英国生物银行表型数据

由于数据的大小和异质性,摄取英国生物银行表型数据是一个挑战。数据(目前)有7774个独立字段,具有各种数据类型(整数、分类、连续、日期等)和特殊特征(例如:不同的编码、不同的收集时间、不同的大小等)。

结构化数据由英国生物银行以文本(加密)格式提供,不适合查询和与其他数据类型集成。

除了结构化数据,一些字段还链接到原始信息,如图像和遗传信息(例如:估算基因型,外显子组等),这些信息需要以不同的方式处理。

关于加载数据,我们做出了以下选择:

  • 简单结构化数据装入数据仓库系统(基地在多个表中分离,并保留足够的信息,以便在需要时与数据库直接交互(例如:在列名中同时保留字段名和标识符)。
  • 原始数据单独加载到ICA的存储系统中,并根据所使用的工具转换为最合适的格式,同时保持所有数据可用

系统提供了方便的方式(以原始数据文件为参数的库函数)完成以下管理任务:

  • 添加新数据(例如:一些表型的新测量)
  • 删除数据(例如:撤回同意的患者)

数据展示中详细描述了每个数据字段英国生物银行网站。例如,带id的字段2443(表示为4列(每个实例一列):

列中值的含义由数据编码,在这种情况下,0代表“否”,1代表“是”,-1代表“不知道”,-3代表“宁愿不回答”。

所有必需的信息(原始数据和编码)都以SQL表的形式加载,并且表和字段名使用实际名称增强,以提高可读性。对于上面的例子,所有的实例都存储在同一列中,像这样:

我们将在后面的小节中展示这是如何简化查询的。

值得一提的是,虽然我们在这里展示了一个简单的分类数据示例,但英国生物银行有多种类型的数据(整数、浮点数、日期、时间等),具有各种特征(例如:实例-这是时间点的集合;数组值-多次测量;等等)。

ETL -其他GWAS研究

fingen是一个定期发布数据的芬兰个性化医疗项目。该数据包含对176K个样本进行的GWAS研究结果和对2444种表型分析的17M个变体。FinnGen使用GRCh38基因组版本。

Pan UK BioBank是一组跨6个祖先群体的英国生物银行表型的多祖先分析。这导致总共16,119个全基因组关联研究的总结统计数据被发布到社区。

将一个基因组构建的位置转换为另一个基因组构建的位置,并且只存储一组位置将导致信息丢失,因为不是所有的位置都可以转换。我们决定保留每个数据集的原始坐标(GRCh38和GRCh37),并将其转换为缺失的构建(例如:将fingen位置也转换为GRCh37)。这允许完全控制可能导致在执行分析时忽略部分信息的决策。该模式有一个字段(EXTRA),可以以JSON的形式存储额外的、研究特定的信息,必要时还可以查询该字段。例如,对于Pan UK Biobank, EXTRA字段包含:

{"pval_heterogeneity": 2.11e-01}


存储数据的一个例子是(一些列/值为了简洁省略了):

分析—查询组件

该系统的一个重要方面是允许与数据的简单交互。为此,构建了一个抽象层,以隐藏数据存储的细节,同时允许在需要时进行完全控制。

最好的例子是英国生物银行的表型数据。这些数据分布在数据仓库中的多个表中,并具有以下几个特殊性:

  • 编码(例如:男性/女性是如何编码的?诊断信息是如何编码的?等等)。
  • 一些数据是在不同的时间点收集的(例如:在2005年,然后在2010年),一个概念被称为实例。
  • 有些数据以时间序列的形式呈现(例如:医院发作)

您可以看到图3中的API示例。

图3。访问英国生物银行数据的高级API(注:这里显示的数据值是随机生成的,用于演示目的,而不是基于实际数据)。

这个查询显示了抽象的一些特征:

  • 使用不同类型的编码进行诊断。该示例显示了来自PheWasCatalog的代码,但也支持ICD9和ICD10代码。
  • 使用字段标题或字段代码。在本例中,大多数是字段标题,但对于“出生年份”,代码字段34位于“where”子句中。
  • 对所有实例进行测试。在本例中,任何“医生诊断为糖尿病”为“是”的情况都被使用。
  • 使用值而不是编码的值。在“Yes”这个例子中,代替“糖尿病被医生诊断”的数字编码
  • 结果数据帧的列名可以根据需要重命名
  • 多个字段可以在“select”和“where”子句中的条件中组合
  • 住院发作可查询(ukbb.PhenoHesin)

该API的目的是使研究人员能够以高级方式更容易地查询数据。如果API不能提供特定类型的查询,用户可以将其作为起点,然后调整低级SQL查询以获得所需的结果。对于图3中的查询,完整的SQL查询如图4所示。可以看到,尽管所有的信息仍然存在(字段代码和标题、搜索值、条件等),但要阅读和理解最初的意图要困难得多。这仅适用于高级用例,我们不断尝试改进高级API以支持更广泛的用例。

图4。图3中基于api的查询的SQL查询版本。

分析- GWAS

由于GWAS分析需要大量的计算,全基因组规模的GWAS分析通常不会在美国进行板凳上模块,而是作为ICA中的一个工作流模块。库函数(在python和R中)提供了,以使执行GWAS尽可能简单。

具体流程如下:

必须提供一个样本队列。这既可以使用一个表型查询(如上所述),也可以用另一种方式来生成包含表型值和协变量列表的数据帧。

  • 设置任何GWAS和过滤参数,例如包含/排除区域、质量截止等。
  • 定义相关表型和协变量
  • 运行分析
  • 检查分析并存储结果以供将来使用

所有结果都存储在数据仓库中,用于进一步分析和存储,与fingen和PanUKBioBank数据存储的结构相同。这使得查询和搜索更加强大,因为您可以一次查询完整的数据集。

执行的一个例子是:

任何之前执行的GWAS都可以通过标识符、名称或其他字段通过一个函数调用来检索,例如:

可视化- PheWeb

GAE的主要关注点之一是提供多种可能性来分析和可视化人口数据。为此,我们使用了开源应用程序PheWeb。可视化集成在完整的流程中,新结果可用时将自动处理。

各种显型所在的类别也进行了定制,以方便导航。图5中可以看到一个例子。

图5。使用PheWeb进行GWAS结果可视化。

讨论与结论

构建一个复杂的探索系统可能是一项艰巨的任务,尤其是在一个数据、工具和理解发展得像基因组学一样快的领域。拥有一个良好的基础,在此基础上进行建设对于这样一个项目的成功是至关重要的。因此,我们可以问:“平台的哪一部分对项目至关重要?以及“我们学到了什么?”yobet亚洲

第一个问题的答案是:“平台的哪一部分对项目至关重要?”,是一种以编程方式(通过API)执行任何任务的能力,其结果与人类在GUI中执行相同操作时相同。这使我们能够构建越来越复杂的过程,同时让研究人员可以自由地使用基本的构建模块。同样重要的是能够自动管理常见的、易于理解的任务,例如:访问控制、审计、加密、备份、基础设施配置等。虽然仍然可以进行调整,但经验表明,已经可以提供非常好的默认值,以便项目的实际受益者不需要更改任何内容。

在这个项目中,我们了解到您可以有效地管理大量数据并在合理yobet亚洲的时间内分析它们。一个挑战,特别是在表型数据的情况下,是协调现有的标准-当可用时-并使其在研究环境中方便地使用。这样的使用需要在不同版本和不同用例之间组合和链接多个标准和/或本体。虽然映射和转换可以在个案的基础上完成,但是有一个像GAE这样的系统已经提供了这样做的库,可以显著提高研究效率。数据结构和提供的功能的演变将继续下去,因为在协调所有信息和构建更先进的工具来处理信息方面仍有许多改进要做,但这是一个没有单个实体可以单独完成的过程。

参考文献
  1. 英国生物库https://biobank.ndph.ox.ac.uk/ukb/index.cgi
  2. 芬根研究项目https://www.finngen.fi/en
  3. Broad研究所https://pan.ukbb.broadinstitute.org/
  4. b.l.r.m.e. a. Denny JC电子病案数据全现象关联研究与全基因组关联研究数据的系统比较《自然生物技术》2013年12月。
  5. S. V. P. e. a. Gagliano Taliun利用PheWeb探索和可视化大规模遗传关联自然遗传学,没有。52,第550-552页,2020年。