跳到内容

准确和高效的小型和大型变种叫PopGen数据集使用DRAGEN看到你平台

安德鲁•格罗斯Sorina Maciuca,安东尼·考克斯杜克Tran Yunjiang秋黄Zhuoyi珍妮弗•德尔Giudice

分享这篇文章

采用高通量测序越来越成为临床实践和种群遗传学(PopGen)的研究中,将挑战获得访问技术,提取最从数据中生成一个高效准确的方式。全面提供,Illumina公司DRAGEN(动态读取分析基因组学)看到你的平台能够调用大小变异以高精度和高速度,从而使效率提供有意义的见解,都在一个平台。

纽约基因组中心的高覆盖率的释放1000人基因工程的全基因组测序数据1让我们了解这些不同的调用者在一个具有代表性的群体。这不仅让我们观察变量调用从许多不同的样本,也消除了地区覆盖率数据不均匀或违反假设呼叫者的变体。

我们部署了1000人基因工程数据和DRAGEN平台:

  1. 确定大小变异、聚合和公开。2
  2. 显示,通过例子,提供的各种见解DRAGEN调查更大的变异。
  3. 利用DRAGEN的高精度和过滤功能群样本以国旗上小变异潜在的工件或违反孟德尔的假设。标记变体也公开。3

I) DRAGEN速度和变体调用者使用的数据集1000人基因工程

DRAGEN平台多个管道特性一起使用以调用大小变异从一群抽样精度高。表1描述了DRAGEN管道用于变量调用。

表1。DRAGEN管道用于1000人基因工程分析

CYP2D6 *4、5和SMN 1/26、7管道是不包括在当前使用v3.5.7b 1000人基因工程的分析数据集,但在DRAGEN v.3.7 (CYP2D6)和DRAGEN v.3.8 (SMN1/2)。

为1000人基因工程数据集分析,使用的所有管道是通过精心策划的一个DRAGEN指挥和部署在一个端到端运行为每个示例。提供DRAGEN的高处理速度的一个例子,表2和图1显示的平均运行时间的2504个样本的分析与DRAGEN v3.5.7b Illumina公司联系分析8云计算平台利用f1.4xlarge AWS实例。

表2。平均运行时间DRAGEN v3.5.7b ICA (f1.4xlarge实例)
(n = 2504,参考:hg38 alt意识到)

图1所示。示例DRAGEN (v3.5.7b)时间的比较

DRAGEN运行使用不同的基因组进行引用,更大的AWS实例(例如,f1.16xlarge)或内部DRAGEN服务器上可能导致更快的运行时分析。运行时改进与新DRAGEN软件版本也可以获得。9

(二)额外的洞察DRAGEN管道用于大型变种号召1000人基因工程数据

结构变体(SV)是一个大型的基因组变异个体的基因组DNA中发现相对于参考序列。虽然少比小核苷酸变异(SNVs),这些大的变化可以破坏一个基因的功能及其影响疾病的记录。10

为了确定所有的不同类型的大变异,DRAGEN平台集成了多种工具用于串联收集了解个体的基因组的结构。使用read-depth DRAGEN采用互补的方法,分割,paired-read信息,定制算法针对已知的基因位点。

在本文中,我们展示如何使用DRAGEN-SV调用者结合其他DRAGEN管道为了叫亚型等sv的拷贝数变化(CNVs)。我们还描述DRAGEN部署针对性方法为了叫变异difficult-to-call地区(例如,使用扩张猎人str, CYP2D6调用者对变异的基因编码细胞色素P450 2 d6酶,和SMN1 2调用者在运动神经元生存基因变异在脊髓性肌肉萎缩症)中发挥作用。

DRAGEN SV调用者

DRAGEN SV调用者是来自开源外套SV调用者。11像外套,它利用分裂和paired-read证据发现和得分结构变体包括删除、插入、串联重复和breakends。按照惯例,报告结构变异大小50个基点。删除和串联重复200基地和大,SV调用者此外断言变体之间的深度变化及其侧翼地区变体类型是一致的,进一步改善这些变异类型的精度。

在1000人基因工程数据集(n = 2504), DRAGEN-SV管道能够拨打36961独特的删除(1 kb-20kb)和7534年的独一无二的串联重复(1 kb-20kb)分布在不同的频率阈值,如图2所示。

图2:删除和串联重复的分布称为DRAGEN-SV管道在不同频率阈值。

DRAGEN CNV调用者

DRAGEN CNV调用者使用地方法部分基因组区域的连续的生殖系复制数据。这生殖系假设下运作,因而不是专门针对检测马赛克变体(尽管高纯马赛克基因拷贝数异变可能是报告的CNV调用者的输出VCF文件)。经验法则是,这个调用者有很好的性能在变种10 kb和大30倍基因组,但这大概尺度与深度报道。基因组CNV,很大可能是代表CNV调用者,和也会反映在染色体倍性变化对其来源。此外,我们可以看到一个CNV代表DRAGEN-CNV调用者,以及DRAGEN-SV调用者如果分裂或paired-read 除了地支持

1000人基因工程数据集,DRAGEN CNV管道能够拨打2891独特的基因拷贝数异变大于10 kb大小与图3中描述的频率分布。

聚合基因拷贝数异变在样本,我们看到大约150个电话样本大小大于10 kb。与小变异,我们注意到许多基因拷贝数异变是非常普遍的剩下大约25变异频率阈值和1% 6单变量/样品。

图3:基因拷贝数异变大于1 kb的分布称为DRAGEN-CNV管道在不同频率阈值。
DRAGEN-CNV调用者的一个特性是,基因组分为覆盖命令行上指定的垃圾箱约定,从运行是一致的。在这个程度上,我们可以非常合并多个覆盖文件(* .target.counts.gc_normalized DRAGEN输出结束)到一个表结构,以有效地存储和查询覆盖人口规模的变化(图4)。
图4:队列的可视化一个常见的删除。

热图的垂直部分代表覆盖垃圾箱,每个片的颜色和强度代表样本的分布深度覆盖整个基因组群1000,鉴于本。突出显示区域显示的坐标常见的删除。

DRAGEN ExpansionHunter

str /重复扩张是一个特殊的类插入变异的插入序列由一个重复图案的额外副本。由于SV的方法调用(依靠新创的插入序列),这仍然是一个困难的变体。尽管如此,DRAGEN平台可以使用变体结构的先验知识准确地使用序列图(ExpansionHunter)调用重复扩张。12、13、14DRAGEN团队策划从遗传学文献和临床相关的重复扩张包括大多数已知的报告重复扩张这个变体叫包的一部分。

我们生成尺寸分布对一些str在样本1000人基因组计划(图5)。

图5:等位基因频率在CSTB str AFF2 ATXN10, JPH3基因样本1000人基因组计划。

调用者DRAGEN倍性

在许多病理,从基线可以观察到倍性变化,DRAGEN倍性调用者报告平均所有的常染色体和性染色体倍性水平。这个调用者能够报告生殖系whole-chromosome倍性变化或花叶变异马赛克纯度下降到15%。这些变化是观察到通过DNA拷贝数和可能会或可能不会被视为结构性变异狭义(许多称他们为修改宪法),但都包含在这个讨论,因为他们可以集中在与sv 有实用意义的解释

我们可以使用1000基因组数据检查的倍性电话分布不同的样本(图6),让我们更好地理解整个染色体倍性变化的检测极限的方式是不可行的传统基准数据集通常少于少数样本组成。染色体覆盖整个池评价样本让我们看到,绝大多数染色体介于90%和110%的预期范围,而少量的离群值收益 覆盖

图6:倍性分布跨越1000人基因工程样本数据集。

DRAGEN卢武铉调用者

DRAGEN还支持调用运行大量的纯合性(卢武铉)。这个调用者作用于小变体基因型数据和突出的地区会出现许多变异纯合子丰富杂合变异体。大型卢武铉电话可以用来突出存在的单性生殖的isodisomy或父母之间的关联性。由于自然变异卢武铉的人口,1000人基因工程数据集设置基线的预期非常有益的卢武铉块在一个典型的人口和可用于设置为萎靡不振的临床病例启发式阈值作为进一步调查异常(图7)。

图7:大型卢武铉块的数量分布以及部分SNVs在大型卢武铉在1000人基因工程数据集块调用。

3)结合多个数据类型使用DRAGEN平台:不平衡易位的例子

1000人基因工程的宽度数据集允许我们观察一个罕见的变异类型的多样性没有标准基准测试样品。一个例子是一个不平衡易位NA20533。这些类型的大规模基因组重组是非常罕见的,几乎总是致病时,观察到在临床样本。在这个例子中,我们怀疑不平衡易位是体细胞工件。尽管如此,我们可以使用它作为一个临床相关的变异类型。

看着倍性调用者的输出,我们看到一个异类染色体需要进一步调查:

倍性估计,,常染色体平均覆盖率,36.47

倍性估计,13 /常染色体中值,中值1.24

对于本例,我们使用DRAGEN target.counts。gc-corrected的文件覆盖整个基因组形象化(图8)。比较这背景分布的染色体报道,我们可以看到,这是一个明显的例外:

图8:全基因组的可视化NA20533覆盖。

数据被表示为一个热图的切片图像代表的分布depth-bins(从.target.counts。以100 kb基因组的间隔gc_normalized文件)。

在上面的图8中,我们可以看到一个非常大的重复13号染色体上,以及一个大型终端删除17号染色体上的不平衡易位的暗示。继续CNV调用(表3),我们可以看到删除代表在一个损失,而重复是跨越5个单独的调用。这个分裂是由于共同的拷贝数变异或噪音的存在分裂变体叫成碎片为如此大规模的基因拷贝数异变是很常见的。

表3:CNV的子集。VCF申请NA20533对应基因拷贝数异变毗邻一个不平衡易位。

回到我们的覆盖率数据,我们可以看看这些基因拷贝数异变的边缘看到如果我们信任提供断点CNV,或者我们可能想要改进他们(图9)。
图9:覆盖的可视化NA20533易位断点。

点代表规范化被从“.target.counts覆盖率数据。gc_normalized”文件。

看到这个报道数据,给了我们信心,我们确实有一个很好的估计在这个不平衡易位断点。最后,正如我们知道这些易位导致基因组重排以及拷贝数的变化,我们可以询问结构变体调用文件,.sv.vcf。广州”,附近的CNV定义断点的证据这种变体通过配对和split-read数据(表4):

表4:易位断点在NA20533 VCF纪录。

这个例子显示了如何DRAGEN管道便于观看一种罕见的变异在许多大尺度,让我们观察基因组的角度深度阅读和分裂。CNV调用者和相关的覆盖率数据,我们得到非常可靠的调用和清晰的解释变量,而与调用者得到结构变体断点分辨率和机械的理解这个特定的基因组重排的形成。

(四)调用小变体的准确性

统一样本和变量表示启用群组分析,我们使用了gVCF 基因型组件 Illumina公司DRAGEN(动态读取分析基因组学)看到你的平台3.6.3版本。

gVCF基因型的小变体调用者的输出队列中的每个样本和基因型变异出现在任何样本在所有群组成员。样品没有特定变异的纯合子参考信心估计从深度信息出现在小变体调用输出,但gVCF基因型不否则试图调整基于信息从人口基因型。提出了标准多试样录像机的输出15格式和可用于下游群体分析。

我们释放其输出的形式组成的一组队列叫1000人基因组计划的2504个样本,所有样本变异基因分型和注释人口频率。每个样本小变体调用用于构建这个调用设置在前一版本可用。16

我们将演示结果数据集的高质量通过比较对调用生成的一组独立的广泛适用GATK工作流的最佳实践17生殖系小变体。

可伸缩的队列调用与DRAGEN PopGen管道1000人基因工程数据

DRAGEN群组发布由多试样VCF对于每一个染色体,包含2504个样本无关。在整个基因组数据集包含了总共1.51亿个网站,1.38亿个snp和1800万INDELs。值得注意的是,不像其他变体呼叫者,DRAGEN输出候选人等位基因有一些证据,但不被足够高的信心。因此,网站的一小部分输出的等位基因数(AC) 0剩下的一些网站包含两个等位基因与AC = 0和称为等位基因。这些等位基因的潜在价值在图13中所示。如果需要的话,他们可以用以下命令删除:

——{in.vcf bcftools视图。广州}| bcftools过滤器- e ' ALT = "。“oz - o {out.vcf.gz}

不包括记录与AC = 0,有1.27亿个网站,1.14亿个snp, 1500万INDELs和800万multiallelic变体。相比之下,类似GATK叫集包含1.2亿个网站,1.08亿个snp, 1200万INDELs和900万multiallelic变体。图10显示了这些变异等位基因频率的频谱分布,揭示DRAGEN调用明显更罕见变异,还有1300万个变异的频率低于5% DRAGEN输出。

图10:在等位基因频率谱分布称为变异。

注意,完整的调用集是用于此图——GATK VQSR后将包含更少的变体过滤。

DRAGEN队列 要求精度

我们基准测试的准确性人口叫集获得DRAGEN和GATK使用各种指标:错误率与变体真理集,偏离哈迪温伯格平衡和孟德尔违规在三人小组。

错误率

首先,我们精心策划的假阳性和假阴性计数与真理变异特征样本,NIST公布的基因组在瓶子里(GIAB18)财团。这个真理样本,称为NA12878,是原来的1000人基因工程组的一部分。列代表NA12878提取多试样VCF和变异的真相组相比,使用高信任度地区从版本3.3.2 NIST的数据集。图11显示了生成的错误计数从DRAGEN调用(“DRAGEN-GG”)和2调用设置从GATK输出:所有变异后联合基因分型(“GATK-JG”)和变异,通过不同质量分数只校准(“GATK-VQSR”)。DRAGEN-GG最低数量的假阳性和假阴性SNPs和INDELs。

图11 a, b:错误计数三种不同变体呼叫者管道:DRAGEN-GG, GATK-JG, GATK-VQSR (a) SNP和(b) INDEL。
一个公平的问题,就是这个样本代表性与真理变异的准确性其他人群。这是很难回答没有更多的真实数据,但我们可以看的患病率NA12878错误队列中了解发生了什么在其他样本。图12显示了DRAGEN假阳性(FP在图11)通常比GATK的不太常见,即使VQSR过滤。
图12:NA12878 SNP FP对于每一个管道,在所有2504个样本与等位基因频率。
同样为假阴性,我们检查有多少真正的变体错过NA12878 (FN地位在图11)仍未被发现的人口水平,通过寻找他们的存在在其他样本。只有15%的DRAGEN fn和21%的GATK fn藏匿在其他群,表明我们正接近极限可以显示关于人口与一个真理样品灵敏度。的fn会检测到队列,我们可以计算等位基因频率。图13显示额外的变异由DRAGEN往往发现罕见的频率。特别感兴趣的是那些与等位基因数0,这有一些证据,但没有足够的信心。注意这个分析在单核苷酸多态性,为避免混淆,由于不同变体表示真理组和组之间的调用设置INDEL地点。
图13:NA12878 SNP FN变异对于每一个管道,等位基因频率在所有2504个样本。VQSR fn以来不包括过滤GATK的超集。

偏离哈迪温伯格平衡

接下来,我们衡量偏离哈迪温伯格平衡的比例比较网站的迹象工件 每个 调用。GATK VariantAnnotator是用来计算ExcessHet度量(过多的杂合性)为每个网站,代表Phred-scale假定值的哈迪温伯格平衡测试。更高的价值意味着更高的技术构件的机会。图14显示了DRAGEN数据集比例最高的网站不违反哈迪温伯格平衡,突显出高精度的调用。我们国旗与ExcessHet > 28.69过滤网站,其假定值对应3个标准差远哈迪温伯格的期望。这导致DRAGEN网站被标记的略低于0.05%。我们提供这些信息在一个地方只VCF文件附带DRAGEN群组呼叫,包括ExcessHet度量,一般与其他计算网站注释。如果用户希望的所有信息在一个单一的文件,他们可以合并DRAGEN输出和网站只是VCF使用下面的命令:

bcftools注释——{sites.vcf。广州}- c信息,oz - o {output.vcf +过滤器。广州}{dragen_calls.vcf.gz}

图14:根据ExcessHet指标的分布称为网站。

值越高,更多的机会技术工件时样品无关。

孟德尔的错误

最后,我们计算孟德尔错误率在一个隐藏的三个群体的一部分——NA20891样品,NA20882 NA20900。违反家庭关系是一个有用的度量评估准确性更广泛的比 真理 集,因为他们不限于变体在高信任度的基因组区域。表5显示了孟德尔的数量错误的网站总数的变体在至少三人组的一个成员。DRAGEN-GG 和 GATK-VQSR执行类似的,有轻微GATK-VQSR 优势的成本进行更少的调用。

表5所示。每个管道孟德尔错误率

确认:感谢Shyamal Mehtalia, Egor Dolzhenko克里斯托弗·桑德斯海蒂诺顿和Rami Mehio参与和支持在本文中给出的测试,对其审查和使数据访问。

外部链接

https://github.com/Illumina/manta

https://github.com/Illumina/canvas

https://github.com/Illumina/ExpansionHunter

https://github.com/Illumina/SMNCopyNumberCaller

https://github.com/Illumina/gvcfgenotyper

https://github.com/Illumina/Cyrius

DRAGEN再分析的1000个基因组数据集在AWS上

访问数据的方法有两种:通过AWS CLI或与AWS管理控制台:

数据集的链接

小变种2504个样本:

https://s3.console.aws.amazon.com/s3/buckets/1000genomes-dragen?prefix=data/dragen-3.5.7b/hg38_altaware_nohla-cnv-anchored/gVCF-genotyper-3.6.3-2/hg38_alt_aware_nohla/2504samples/

小变异NA12878结果:

https://s3.console.aws.amazon.com/s3/buckets/1000genomes-dragen?prefix=data/dragen-3.5.7b/hg38_altaware_nohla-cnv-anchored/gVCF-genotyper-3.6.3-2/hg38_alt_aware_nohla/NA12878_annotation/

CNV / SV 2504个样本频率:

https://s3.console.aws.amazon.com/s3/buckets/1000genomes-dragen?region=us-west-2&prefix=data/dragen-3.5.7b/hg38_altaware_nohla-cnv-anchored/cnv-sv-frequency/2504samples/

这些数据集的解释在AWS文章:

https://aws.amazon.com/blogs/industries/dragen -再分析- - - 1000 -基因组数据集-现在-可用——打开——data/ -注册表

引用
  1. 玛尔塔Byrska-Bishop;et al。高覆盖率的全基因组测序扩大1000人基因工程组包括602三人小组。bioRxiv2021.02.06.430068
  2. 小型变种2504个样本。
  3. 小变异NA12878结果。
  4. 陈,X。沈,F。、Gonzaludo n . et al。。使用全基因组测序数据Cyrius:准确CYP2D6基因分型。药物基因组学J(2021)。
  5. Cyrius文章
  6. 陈,X。Sanchis-Juan,。、法语、着力点等。脊髓性肌肉萎缩症诊断和载体从基因组测序数据筛选。麝猫地中海22日,945 - 953 (2020)。
  7. SMA的文章
  8. Illumina公司联系分析
  9. Dragen再分析的1000个基因组数据集可以打开注册表的数据。图3
  10. Medhat艾哈迈迪et al。调用结构变体:它的长和短。基因组生物学(2019)20:246 doi: 10.1186 / s13059 - 019 - 1828 - 7
  11. 小雨陈等。外套:快速检测的结构变异和indels生殖系和癌症测序应用程序。生物信息学,2016年4月15日,32 (8):1220 - 2。Doi: 10.1093 /生物信息学/ btv710。Epub 2015年12月8日。PMID: 26647377。
  12. Egor Dolzhenko et al。检测PCR-free全基因组序列数据的长期重复扩张。基因组Res, 2017年11月;27日(11):1895 - 1903。doi: 10.1101 / gr.225672.117。Epub 2017年9月8日。
  13. Egor Dolzhenko et al。ExpansionHunter: sequence-graph-based工具分析短串联重复序列的变化区域。生物信息学、卷35问题22日2019年11月15日,页4754 - 4756。doi: 10.1093 /生物信息学/ btz431
  14. 评论家/扩张猎人
  15. 变体调用格式(VCF)版本4.2规范
  16. Dragen再分析的1000个基因组数据集可以打开注册表的数据。
  17. 数据收集1000个基因组
  18. 基因组在瓶子里