抽象性
文章展示方式光照连通分析平台使用为定制基因组分析环境基础环境管理并处理大量异式数据集,包括基因组学和小数类数据
所有所需功能都建在ICA平台组件上提供的一些功能包括提取、变换加载(ETL)和数据仓库内可缩放数据存储高低级数据查询允许灵活高效使用系统预打包高级分析,包括工作流程规范、分布式数据处理和结果可视化
yobet亚洲并讨论所得益和教益。
导 言
基因组数据分析面因可用数据丰富量大而变得更加复杂将遗传信息纳入人体保健将对各个领域产生巨大影响,例如理解基因在疾病中的作用,基因如何影响现有药物响应或开发新药
为了实现基因组学在保健方面的全部潜力,研究人员既需要数据 — — 更容易获取 — — 也需要先进系统方便分析数据
文章中描述基于Illuma连接分析环境的复杂基因组分析环境®平台化并详细介绍环境目标然后讨论改进和构件构建使用基因组分析环境yobet亚洲我们总结经验
ICA平台
ICA平台是我们构建基因组分析环境的基础ICA是一个现代云平台,它能处理复杂使用案例,我们通过面向研究扩展得到进一步加强平台提供构建解决方案所需的所有必要基础和特征,并处理许多所需非功能方面,如加密、备份、云实例提供、审核等
ICA组件与我们工作最相关如下:
- 座谈交互数据科学环境可同时用于研究定制复杂可视化
- 基础高效可扩缩数据仓解决方案可存储多式数据
- 流扩展工作流执行引擎支持生物信息工具
- 基因组数据存储文档管理存储服务 所有其他模块使用
平台概述可见图1
基因组分析环境
分析环境的目标是帮助分析遗传标志、pheno类型数据、电子医疗记录数据以及所需的任何其他参考数据库此类分析使各种使用案例能够引导,例如毒品目标识别和发现
GAE建楼ICA使用平台所有组件并包含多项交付品
- 管理数据存储方法,包括哪种类型数据存储方式、结构化数据使用模式以及如何访问、备份和保密数据这部分依赖GDS基础.
- 工作流程快速和高成本效益计算大型复杂计算这些数据补充ICA平台提供的现有工作流集(如使用Dragen调用变量、RNA分析等),并附项目具体需求这部分依赖流模块ICA
- 科学笔记本和源码模板和实例用于数据探索部分部分例子包装程序隐藏细节与平台组件交互作用,提高研究者效率并使他们能够聚焦实际分析这部分依赖座谈模块ICA
- 附加可视化集成系统可视化应用编程数据摄取和通过三党可视化应用整合可视化工作空间实现可视化所需预处理无缝体验
GAE的一个重要目标是以方便方式提供不同抽象层次的分析、查询和可视化访问研究人员可以很容易地开发(或只是检查)不同抽象级的任何构件这使系统有很大的灵活性并允许研究人员在需要时调整系统以适应他们的需要效益如下:
- 弹性-研究人员可创建/修改现有资产
- 开放度-研究人员可使用不同方法/算法
- 控制-结果可详细验证
- 效率-研究人员工作抽象层次最自在
图2概述抽象层次
详细描述系统工作方式,我们将使用合成简化使用案例使用案例不应被视为系统的主要目的,而应视之为允许系统演示的教学实例。
用例
博客文章使用假设使用案例研究试图从基因组中查找区域变异与一组青年病人(1965年后出生)诊断糖尿病相关关系,并用体质指数同化
为使分析成为可能,我们需要基因型数据、异型数据或EMR数据,并讨论如何摄取和处理EMR数据摄取并非严格使用案例的一部分,但在许多项目中,这是一个相关步骤。数据源选择为UK生物库和FinnGen
组件
举例使用案例需要部分组件讨论期间,我们将指出使用ICA平台促进这类项目的好处,以及ICA如何加速类似项目,以现有代码、经验模块为基础
下描述的组件可大致分解成ETL和存储组件,这些组件用于项目搭建和预定义时间段取取/删除数据查询分析组件用于日常研究活动自定义可视化组件使用可视化分析输出
ETL-UK生物库基因型数据
英英生物库phonyoy数据因数据大小异而面临挑战数据有7774独立字段,有各种数据类型(整数、绝对数、连续数、日期等)和特征(例如:不同编码、不同收集时间、不同大小等)。
结构化数据由英国生物银行以文本化(加密)格式提供,不适合查询和整合其他数据类型
除结构化数据外,有些字段链接原始信息,如图像和遗传信息(ex:估计基因型、exome等),需要以不同方式处理
关于加载数据,我们做了以下选择:
- 简单结构化数据装入数据仓系统基础模块ICA分离并保留足够信息以便在需要时直接与数据库交互(ex:同时保留列名内字段名和标识符)
- 原始专用数据单独装入ICA存储系统并转换为最适当格式,同时保留所有可用数据
系统提供方便方式(library函数以原数据文件为参数)实现下列管理任务:
- 添加新数据(ex:新测量某些pheno类型)
- 删除数据(ex:撤回同意的病人)
列中值的含意由数据编码中0表示“否”,1表示“是”,-1表示“不知道”,3表示“不回答”。
所有所需信息(原始数据和编码)均加载SQL表,表名和字段名加实名可读性以上示例中所有实例都存储在同一列中,例如:
下一节显示简化查询方式
必须指出,虽然我们在这里展示简单绝对数据实例,英国生物银行有多种数据类型(整数、浮点数、日期、时间等),并有各种特征(例如实例-即时间采集点!数组值-多重测量等)
ETL-GWAS其他研究
FinnGen个人化医学项目定期发布数据数据包含GWAS研究结果176K样本和17M变异分析2444phenoFinnGen使用GRCh38基因组版
泛英生物银行对英国生物银行遍历6个子组的pheno类型进行多源分析共16 119个全基因组研究汇总统计发布社区
变位从基因组建构转置并只存储一组位置会导致信息丢失,因为并非所有位置都可变换判定保留每个数据集原坐标(GRCH38和GRCH37)并转换为缺失构造(例如:FinnGen位置还转换GRCH37)。允许完全控制决策,结果可能在分析时忽略信息的某些部分schema有字段(EXTRA)可存储附加学习专用信息,即JSON,必要时也可以查询泛英生物库EXTRA字段包含
{pval_异质性:2.11e-01} |
数据存储实例如下(某些列/值省略简洁性):
分析-查询组件
系统的一个重要方面是方便地与数据交互为此目的,搭建了抽象层以隐藏数据存储细节,同时允许按需完全控制
最佳实例是UK生物库peno类型数据数据仓多表分布并有几大特征
- 编码法(ex:男女编码法如何编解码诊断编码如何编解码等)
- 某些数据在不同时间点收集(前注:2005年,2010年再次收集),概念称实例
- 部分数据以时间序列显示(前例:医院事件)
可见API图3实例
本查询显示抽象性特征
- 使用不同类型编码诊断示例显示phodePheWasCatalog, 但也支持ICD9和ICD10代码
- 使用字段标题或字段代码例子中多为字段标题,但对于“出生年份”,代码字段34置入“where”条款
- 测试所有实例例子中使用“Diabetes由医生诊断'
- 使用值替代编码值例子“是”,代之以数字编码
- 列名生成数据框架可按期望重命名
- 多字段可按条件组合,在“选择式”和“ where式”条款中
- 医院事件摄取量可定型化 (ukbb.phenoHesin)
API目的是使研究者以高层次方式更容易查询数据万一API无法提供特定类型查询,用户可使用它作为起始点并随后调整下级SQL查询以获取期望结果图3查询图4显示完全SQL查询可以看到,虽然所有信息都还存在(字段代码和标题、值搜索、条件等),但读取和理解原意要难得多。仅供高级使用案例使用,我们持续努力提高高级API支持范围广泛的案例
GWAS分析
由于GWAS分析的密集计算需求,全基因组规模GWAS分析通常不运行座谈模块ICA, 代之以工作流流模块化提供库函数(ython和R)以尽可能简单执行GWAS
进程如下:
必须提供样本群可使用phenoQuery(如上所述)或以生成数据框架的替代方式实现,内含倍式值和共变式表
- 设置 GWAS和滤波参数,如容入/排出区、质量切分等
- 定义相关phio类型和共变
- 运行分析
- 评审分析并存储结果供进一步使用
所有结果都存储在数据仓库中,供进一步分析和存储,并存储FinnGen和PanUKBioBank数据存储结构这使得查询和搜索能力更高,因为您可以同时查询完全数据集
执行实例如下:
可视化-pheWeb
GAE的一个主要焦点是提供多重可能性分析和可视化人口数据开源应用pheWeb可视化集成全流,新结果提供后将自动处理
类别下各种倍型定制以方便导航图5可见一例
讨论和结论
建设复杂探索系统可能是一项艰巨任务,特别是在数据、工具和理解发展速度与基因组学一样快的领域。拥有良好基础并发基础对这样一个项目的成功至关重要。yobet亚洲并问道:“平台的哪一部分对项目至关重要?” 和“我们学到什么?”
回答第一个问题,即“平台的哪个部分对项目至关重要?” 回答是能力编程执行任务(通过API)并产生相同结果并同时允许研究者自由使用基本构件操作自动管理常见和广受理解的任务的能力同样重要,例如:访问控制、审核、加密、备份、基础设施提供等调整仍然有可能,但经验显示,极好的默认程序可以提供,这样项目的实际受益者就不需要改变任何东西。
yobet亚洲在此项目期间,我们学到,你可以高效管理大量数据,并在合理时间分析数据。挑战之一是协调现有标准-当有时-并方便研究使用此类使用需要组合并连接多标准和/或本体,跨版本并面向不同使用案例地图绘制和变换可逐例完成,并拥有像GAE这样的系统,它已经提供图书馆实现可大大提高研究生产率数据结构演化和提供能力将继续下去,因为在协调所有信息并建设更先进工具处理方面仍有许多改进有待完成,但这是一个过程,单实体无法单干处理
引用
- 英国生物库https://biobank.ndph.ox.ac.uk/ukb/index.cgi
- 芬根研究项目https://www.finngen.fi/en
- 广度学院https://pan.ukbb.broadinstitute.org/
- .b.L.R.M.e.a.丹尼JC系统比较百科全局电子医疗记录数据和全基因组研究数据自然生物技术卷2013年12月
- S.V级P.e.a.Gagliano塔林使用pheWeb探索大规模遗传关联自然遗传学号52页550-552,2020