跳到内容
Illumina Connected Analytics® (ICA)平台作为基础,在此基础上构建定制的基因组分析环境。环境管理和处理大量的异质性数据集,包括基因组和表型数据。所有必需的功能都构建在ICA平台组件之上。提供的一些功能包括提取、转换和加载(ETL)和数据仓库中的可伸缩数据存储;既可进行高层数据查询,又可进行底层数据查询,使系统使用灵活、高效;预打包,高级分析,包括工作流规范,分布式数据处理和结果可视化。

我们将在评论实现各种必需的功能如何在一致的平台上运行时获得优势,并讨论从中获得的好处和经验教训yobet亚洲">

数据解决方案赋予人口基因组学研究权力

弗拉德·米海·司马,波尔大道

分享这篇文章

摘要

本文介绍了如何Illumina连接分析®以ICA平台为基础,构建个性化的基因组学分析环境。环境管理和处理大量的异质性数据集,包括基因组和表型数据。

所有必需的功能都是内置于ICA平台组件的顶部。提供的一些功能包括提取、转换和加载(ETL)和数据仓库中的可伸缩数据存储;既可进行高层数据查询,又可进行底层数据查询,使系统使用灵活、高效;预打包,高级分析,包括工作流规范,分布式数据处理和结果可视化。

最后,我们将对在一致的平台上运行时如何实现各种必需的功能进行评论,并讨论其好处和经验教训。yobet亚洲

介绍

基因组数据分析的前景正变得越来越复杂,由于丰富和大量的数据可用。将遗传信息纳入人类医疗保健将对各个领域产生重大影响,如了解基因在疾病中发挥的作用、遗传学如何影响现有药物反应或开发新药物。

为了充分发挥基因组学在医疗保健领域的潜力,研究人员既需要更容易获得的数据,也需要能够轻松分析数据的先进系统。

在本文中,我们描述了基于Illumina Connected Analytics的复杂基因组分析环境的工作®(ICA)平台。我们将首先简要介绍该平台,并进一步详细介绍该环境的目标。然后我们讨论改进和组件构建。我们对药物靶点发现研究活动中基因组分析环境的使用进行了评论。最后,我们总结经验教训。yobet亚洲

ICA平台

ICA平台是我们构建基因组学分析环境的基础。ICA是一个现代的基于云的平台,能够处理复杂的用例,我们已经通过面向研究的扩展进一步增强了它。该平台提供了构建解决方案所需的所有必要的基础设施和特性,并且可以“开箱即用”地处理许多必需的非功能方面,如加密、备份、云实例供应、审计等。

与我们工作最相关的ICA组件是:

  • 长凳-交互式数据科学环境,可用于研究和自定义的复杂可视化
  • 基础–高效、可扩展的数据仓库解决方案,可存储异构数据
  • –支持“开箱即用”生物信息学工具的可扩展工作流执行引擎
  • 基因组数据存储–所有其他模块使用的文件管理和存储服务

该平台的概述如图1所示。

图1.ICA概述

基因组学分析环境(GAE)

分析环境的目标是能够分析遗传标记、表型数据、电子病历(EMR)数据和所需的任何其他参考数据库。这样的分析使各种用例能够指导,例如,药物靶标的识别和发现。

在ICA之上构建GAE使用了平台的所有组件,并需要许多可交付成果:

  • 一种管理数据存储的方法,包括以何种格式存储何种类型的数据,结构化数据使用何种模式,以及如何访问、备份和保护数据。这部分依赖于GDS和基础
  • 以快速且经济高效的方式执行大型复杂计算的工作流。这些工作流程补充了ICA平台提供的现有工作流程(例如使用Dragen、RNA分析等进行变量调用)和项目特定需求。这部分依赖于ICA的模块。
  • 科学笔记本和源代码模板和数据探索部分中使用的示例。一些示例是在与平台组件交互时隐藏细节的包装器,这提高了研究人员的效率,并允许他们专注于实际分析。这部分依赖于长凳ICA的模块。
  • 附加的可视化集成在系统中。可视化应用程序通过将第三方可视化应用程序集成到Bench工作空间中,协调数据摄入和可视化所需的任何预处理,以获得无缝体验。

GAE的一个重要目标是以一种方便的方式为其分析、查询和可视化提供对不同抽象级别的访问。研究人员可以在不同的抽象级别轻松地开发(或只是检查)任何组件。这给了系统很大的灵活性,使研究人员能够在需要时调整系统以满足他们的需要。好处是:

  • 灵活性——研究人员可以创建/修改现有资产
  • 开放性——研究人员可以使用不同的方法/算法
  • 控制结果可以得到详细的验证
  • 效率 - 研究人员与抽象层面合作,他们最舒适

抽象级别的概述如图2所示。

为了详细描述系统如何工作,我们将使用一个合成的和简化的用例。这个用例不应该被看作是系统的主要目的,而应该看作是允许系统表示的说教性示例。

图2。不同的抽象级别

用例

出于本博客文章的目的,我们将使用以下假设用例;该研究试图在基因组中找到该区域,其中变体在杨(ISH)患者队列(1965年后出生)的变异性,并诊断糖尿病,并使用其体重指数作为协变量。

对于这样的分析,我们需要基因型,表型和EMR数据,我们讨论了如何摄取和处理。虽然摄入并非严格的一部分用例,但在许多项目中,这是一个相关的一步。选择的数据来源是英国生物银行和芬金。

组件

我们将展示示例用例所需的一些组件。在讨论过程中,我们将指出在此类项目中使用ICA平台的好处,以及使用ICA如何加速类似的项目,以现有的代码、经验和模块为基础。

接下来描述的组件可以大致分为在项目设置期间使用的ETL和存储组件,并且在预定义的时间瞬间进行摄取/删除数据。在日常研究活动中使用的查询和分析组件。和自定义可视化组件使用可视化分析输出。

英国生物银行表型数据

由于数据的大小和异质性,获取英国生物银行表型数据是一个挑战。数据(此时)有7774个独立字段,具有不同的数据类型(整数、分类、连续、日期等)和特殊特征(例如:不同的编码、不同的收集时间、不同的大小等)。

结构化数据由UK Bio Bank以文本(加密)格式提供,不适合与其他数据类型进行查询和集成。

除了结构化数据,一些字段还链接到原始信息,如图像和遗传信息(例如:输入的基因型、外显子组等),这些信息需要以不同的方式处理。

我们在加载数据方面做出了以下选择:

  • 将简单结构化数据加载到数据仓库系统中(基础ICA的模块),在多个表中分开并保留足够的信息,以允许如果需要,允许与数据库进行直接交互(例如:在列名中保留字段名称和标识符)
  • 原始特定数据单独加载到ICA的存储系统中,并根据使用的工具转换为最合适的格式,同时保持所有数据可用

系统提供了方便的方法(将原始数据文件作为参数的库函数),以完成以下管理任务:

  • 添加新数据(例如:某些表型的新测量)
  • 删除数据(例如:病人撤回他们的同意)

每个数据字段在数据展示中都有详细描述英国生物银行网站.例如,带id的字段2443.(表示为4列(每个实例的一列):

列中值的含义由数据编码在这种情况下,在这种情况下,其中0表示“否”,1表示“是”,-1表示“不知道”,而-3表示“不想回答”。

所有必需的信息(原始数据和编码)都以SQL表的形式加载,为了便于阅读,表名和字段名使用实际名称进行了增强。对于上面的例子,所有的实例都存储在同一个列中,比如:

我们将在后面的部分中展示这是如何简化查询的。

值得一提的是,虽然我们在这里展示了一个简单分类数据的示例,但英国生物银行拥有多种类型的数据(整数、浮点、日期、时间等),具有各种特征(例如:实例——收集时间点;数组值——多个测量值等)

ETL -其他GWAS研究

FinnGen是Finish的一个个性化医疗项目,定期发布数据。该数据包含了GWAS对176K样本和2444个表型分析的17M个变异的研究结果。FinnGen使用GRCh38基因组版本。

泛英国生物库是对英国6个祖先群体的生物库表型进行的一组多祖先分析。这导致向社区发布了总共16119项全基因组关联研究总结统计数据。

从一个基因组的位置转换到另一个基因组,并且只存储一组位置会导致信息丢失,因为不是所有的位置都可以转换。我们的决定是保留每个数据集的原始坐标(GRCh38和GRCh37),并将其转换为缺失的构建(例如:将FinnGen位置也转换为GRCh37)。这允许完全控制可能导致在执行分析时忽略部分信息的决策。该模式有一个字段(EXTRA),可以以JSON的形式存储额外的、学习特定的信息,如果有必要也可以查询该字段。例如,对于Pan UK生物库,EXTRA字段包含:

{“pval_异质性”:2.11e-01}


存储的数据的一个例子是(为简洁起见,省略了一些列/值):

分析 - 查询组件

该系统的一个重要方面是允许与数据进行简单的交互。为此,我们构建了一个抽象层,以隐藏数据存储的细节,同时允许在需要时进行完全控制。

最好的例子是英国生物银行的表型数据。这些数据分布在数据仓库中的多个表中,并具有以下几个特点:

  • 编码(例如:男性/女性是如何编码的?诊断是如何编码的?等等)。
  • 一些数据是在不同的时间点收集的(例如:2005年,2010年),这是一个称为实例的概念。
  • 一些数据以时间序列形式呈现(例如:医院事件)

您可以看到图3中的API示例。

图3.访问英国生物银行数据的高级API(注意:此处显示的数据值是用于演示目的的随机生成,而不是基于实际数据)。

此查询显示了抽象的一些特性:

  • 对诊断使用不同类型的编码。该示例显示了PheWasCatalog中的PHE代码,但也支持ICD9和ICD10代码。
  • 使用字段标题或字段代码。在这个示例中,大多数是字段标题,但对于“出生年份”,代码字段34位于“where”子句中。
  • 对所有实例进行测试。在本例中,使用“医生诊断的糖尿病”为“是”的任何实例。
  • 使用值而不是编码的值。在“Yes”的例子中,取代了“糖尿病由医生诊断”的数字编码
  • 结果数据帧的列名可以根据需要重新命名
  • 可以在条件中组合多个字段,包括“select”和“where”子句
  • 医院剧集摄入量可以被询问(UKBB.Phenohesin)

API的目的是使研究人员能够更容易地以高级方式查询数据。如果API不能提供特定类型的查询,用户可以使用它作为起点,然后可以调整较低级别的SQL查询以获得想要的结果。对于图3中的查询,完整的SQL查询如图4所示。可以看到,虽然所有的信息仍然存在(字段代码和标题,搜索值,条件,等等),但要阅读和理解最初的意图是什么却困难得多。这仅适用于高级用例,我们不断尝试改进高级API以支持广泛的用例。

图4。图3中基于api的查询的SQL查询版本。

分析- GWAS

由于GWAS分析的密集计算需求,全基因组规模的GWAS分析通常不运行在长凳模块,而不是作为一个工作流在模块。提供了库函数(在python和R中),使GWAS的执行尽可能简单。

该过程如下:

必须提供样本队列。这可以使用PhenoQuery(如上所述)或以生成包含表型值和协变量列表的数据帧的替代方式来完成。

  • 设置任何GWA和过滤参数,例如包含/排除区域、质量截止值等。
  • 定义相关的表型和协变量
  • 运行分析
  • 检查分析结果,并将结果存储以备将来使用

所有结果都存储在数据仓库中,以便进一步分析和存储,存储结构与FinnGen和PanUKBioBank数据相同。这使得查询和搜索功能更加强大,因为您可以一次查询完整的数据集。

执行的一个例子是:

任何之前执行的GWAS都可以通过一个函数调用通过标识符、名称或其他字段进行检索,例如:

可视化-PheWeb

GAE的主要重点之一是提供多种可能性来分析和可视化人口数据。为此,我们使用了开源应用程序PheWeb。可视化集成在完整流程中,新结果可用时将自动处理。

不同表型下的类别也被定制,以便于导航。图5中显示了一个示例。

图5。使用PheWeb实现GWAS结果可视化。

讨论和结论

构建一个复杂的探索系统可能是一项艰巨的任务,尤其是在数据、工具和理解发展速度与基因组学一样快的领域。建立一个良好的基础是建立这样一个项目的关键。因此,我们可以问:“平台的哪一部分对项目至关重要?”以及“我们学到了什么?”yobet亚洲

第一个问题“平台的哪一部分对项目至关重要?”的答案是,以编程方式(通过API)执行任何任务的能力,其结果与人类在GUI中执行相同操作的结果相同。这使我们能够构建越来越复杂的过程,同时让研究人员可以自由地使用基本构建块进行操作。同样重要的是,能够自动管理常见的、易于理解的任务,例如:访问控制、审核、加密、备份、基础架构资源调配等。尽管仍有可能进行调整,经验表明,已经可以提供非常好的违约,这样项目的实际受益人就不需要改变任何东西。

在这个项目中,我们了解到您可以有效地管理大量的数据,并在yobet亚洲合理的时间内分析它们。一个挑战,特别是在表型数据的情况下,是协调现有标准——如果可以的话——并使它们在研究环境中方便使用。这样的使用需要结合和链接多个标准和/或本体,跨越不同的版本和不同的用例。虽然映射和转换可以根据具体情况进行,但是拥有一个像GAE这样已经提供了库的系统可以显著提高研究效率。数据结构和提供的功能将继续发展,因为在协调所有信息和构建更先进的工具来处理信息方面仍有许多改进要做,但这是一个单个实体无法单独完成的过程。

参考文献
  1. 英国生物样本库https://biobank.ndph.ox.ac.uk/ukb/index.cgi
  2. Finngen研究项目https://www.finngen.fi/en
  3. Broad研究所https://pan.ukbb.broadinstitute.org/
  4. B.L.R.M.e。A.丹尼JC电子医疗记录数据和基因组关联研究数据的菲尼 - 范围协会研究的系统性比较自然生物技术卷,2013年12月。
  5. S. V. e。一种。Gagliano Taliun.利用PheWeb探索和可视化大规模遗传关联自然遗传学,不。52,页550-552,2020。