跳转到内容

DRAGEN精度FDA实战V2显示案例精度增益

Rami Mehio、MichaelRuehle、SeverineCatreux、Cooper Roddey、ShyamlMehtalia、Bryan Lajoie、Heidi Norton、VarunJain

分享此文章

抽象性

精度FDA最近组织真情挑战V2比较难以绘制区域映射算法和变式调用算法的精度精度FDA于8月3日发布挑战结果,DRAGEN绘图+变异调用者赢得Illuma阅读精度竞赛LiluminaDRAGEN的性能比前次发布DRAGEN率高近50%,同时仍然用单20核心服务器+1FPGA在不到25分钟内分析全基因组实现这些结果时使用DRAGEN自觉映射能力,从相位分布式生成数十万分之相交阵列到hg38参考中,并有效演化成图参比此外,DRAGEN变异调用器使用新技术更好地识别并处理叠加阅读变异

导 言

估计99.9%的人类基因组由个体保存表示只有0.1%有助于一个人高癌症风险,预测他们无法代谢某种药物或解释其遗传性疾病的病理学精确辨识个人基因变异对精密医学、疾病诊断、研究基因源失序和药物发现都至关紧要果园财团和国家标准技术学院提供真题集,如NA12878,覆盖基因组的一大部分,允许生物信息学家测量工具识别变异的精度特别重要的是映射和变异调用步骤

GiAB财团和NIST最近使用链接长读发布扩展真象集V4.2,覆盖基因组92%(比前85%高),显著提高同族区和难以绘制区域覆盖度,其中包括193个临床相关基因事实集是一种宝贵的资源 和关键推介器 开发并基准二级分析法NIST真象集开发时利用长读技术描述通常难以访问的区域特征,但我们在这里展示通过突破改善DRAGEN映射能力和小变异调用DRAGEN目前在难以映射的Illuma读取基因组区域提供更高精度结果突出显示两件关键外送

  1. DRAGEN映射器通过利用相位变换模式并用群取代法扩展参考索引,可有效绘制图组图并改进这些困难区域Illuma阅读图有效新特征扩展Illuma阅读并实现精确映射变换调用 区域前无法访问

  2. 令这一成绩特别重要的是,难以映射区域含有193个临床相关基因,没有特定目标解析和专用信息学无法轻易识别变量最近有了这些改进DRAGEN现在可产生更好变异调精度亚博下载appWGS/WES正常运行转通临床实验室更好的诊断

光照读法因其精度和成本效益而最常用排序技术赋能短读解难图基因组区域问题,该组包含多项临床相关基因,为进一步加速诊断决策并持续帮助识别病人中致病变异提供契机

精度FDA挑战概述

精度FDA实战V2由精度FDA和GIABNIST财团赞助启动这项挑战是为了评估小变体调用管道性能通用参照框架,重点是难以绘制区域、局部重叠和主要历史相容性综合体制定基准

上头瓶装基因组财团最近使用链接长读开发 一套扩充高信实调高品质长读法通常会提高难以映射区域的信心调用GIAB扩展真象集现在覆盖7%基因组,超出前几真象集范围,包括许多医学相关基因扩展真象区有超过2.7亿基础一号.

扩展真象集覆盖更多难以映射区域,包括193个临床相关基因
图1扩展真象集覆盖更多难以映射区域,包括193个临床相关基因

高置信度数据集覆盖的基因组从85%上升至92%百分率比较前机和扩展真象集,193个临床相关基因蓝条显示覆盖%

新的真象集是新生物信息挑战的基础:三大真象组中有两个仍然隐藏着,谁可以展示这些困难区域最优映射和调用变量方法,取自三大测序技术有限样本数据(Oxford Nanoopore、PacBio和Illuma)。
图2精准FDA真情挑战V2概述
图2精准FDA真情挑战V2概述

Source: https://precision.fda.gov/challenges/10

精度FDA挑战结果

DRAGEN在Ilumina阅读类中竞争并排名前排三个测试区域中两个区域(困难图区和所有基准区)。图3中条显示 sNV和INDEL合并错误总数FP+FNFDRAGEN提交比二流提交差约28%和38%,在所有基准区和难地图区均取优

图3精度FDA挑战结果
图3精度FDA挑战结果

DRAGEN提交文件在三个测试区域中两个区域(难图区和所有基准区)获得最优性能评分,即光照测序数据优于其他提交数据

与前版DRAGEN相比,假正反差显著下降,或许比我们反竞争表现更重要受挑战启发的创新将误差率降低了近50%(图4)。
图4HG002扩展真象集精确结果v4.2VCF和BED
图4HG002扩展真象集精确结果v4.2VCF和BED

VCF和BED扩展v.4.2数据集DRAGEN图将SNP误差减少~48%,INDEL误差减少~27%hth表

重要注释用户

DRAGEN图总误差减少50%可用扩展真象集v4.2测量性能增益与老V3.3.2事实集对比时不显眼部分原因是 v3.3.2事实集不包括难以绘制区域图,还因为 v4.2事实集纠正v3.3.2中的错误DRAGEN图与遗留DRAGEN使用老式真象集v3.3.2时相比,似乎产生更多SNP和INDEL假阳性高比例FP调用是因为 truth VCF不完全相同的FP变量标为 true正数v4.2 truth VCF

显示DRAGEN图有效扩展Ilumina阅读范围时,我们比较DRAGEN扩展事实V4.2事实集的精度与PacBiohifi长读深变调用器所实现的精确度

PacBiohifi阅读2PBMM2 v1.3对齐并用DeepVariant v1.0 and whatsHapv1.0处理3.案例研究包含-阶梯进程变换调用首轮调用后 SNVs分期使用标定式BAM再输入深变换方式,变换方式调用并再次分级使用最后阶段2VCF用于所有比较

图5显示,DRAGEN图比前DRAGEN版本远近SNP长读精度DRAGEN两种版本的INDEL精度优于长读管道

图5HG002扩展真象集精确结果v4.2VCF和BED
图5HG002扩展真象集精确结果v4.2VCF和BED

遗留DRAGEN对DRAGEN图对PacBio+DV

上方显示HG002/3/4样本精确FDA真V2挑战DRAGEN图比DRAGEN遗留问题减少总误差近50%下一步,我们显示这些增益不针对具体样本并确实扩展至更多样本和群由于没有事实集可供其他任意采样使用,我们选择样本用长线和Illuma阅读技术排序,不用于图参考构建接下去,我们收集DRAGEN(遗留图解)对PacBio+DepVariant管道采集难图区域结果表明,DRAGEN和长读管道使用DRAGEN图时SNP和INDEL的共享通话数增加5-6%图6展示了这一点,我们看到趋势在整个人群中得到保留(EUR、AFR、AMR、EAS)。DRAGEN图精度增益显示Ashkenazi三大类个人泛化并似乎适用于广大人口。 展望未来,我们计划通过验证大组别进一步改进图
图6DRAGENVCF和PacBio+VCF共享调用量百分比
图6DRAGENVCF和PacBio+VCF共享调用量百分比

比较采集难图区域使用DRAGEN图改善两条管道之间的一致性,SNP和INDEL调5-6%,并保护所有被考虑人群

DRAGEN图:逆兼容度运行时间

除大规模减少扩展真象集总误差外,DRAGEN图的另一有吸引力点是它完全兼容标准BAM和VCF文件格式和现有参考基因组启动DRAGEN图时,用户只需更新hash表并加图hash表HT映射生成标准hg38BAM并自动投送图对齐当前DRAGEN图HT hg38域提供,但GRCH37域的版本不久将提供更何况图功能运行时间不增成本

图7SGS样本DRAGEN运行时间覆盖~35-40x
图7SGS样本DRAGEN运行时间覆盖~35-40x

DRAGEN图HT和DRAGEN标准HT比较运行时间非常相似 显示加图基因组能力 运行时间免费

深入挖掘新DRAGEN映射功能和变换调用提高结果 产生精度FDA真情V2挑战

DRAGEN创新:支持图形基因组

The PrecisionFDA Truth V2 challenge focused on "difficult-to-map" regions, the primary regions where the GIAB Consortium expanded their benchmarks.  Accurate variant calling with short-read data is quite challenging and error-prone in these regions.  Perhaps unsurprisingly, the main impediment to accurate analysis in "difficult-to-map" regions is difficulty in mapping short reads into these regions accurately.  A variant caller analyzes the pileup of reads mapped to a given locus to determine the most probable original sequence content there, but can't do this accurately if the pileup is missing many of the evidence reads that should be present, or is contaminated with mis-mapped foreign reads, or alignments with minimal mapping confidence (MAPQ).

映射难可能因区域高度多态化而产生,样本阅读与参考基因组大相径庭以致映射器找不到或识别优匹配性。 更常见的是,映射难产生时样本读取与区域相当匹配性 — — 但也近似或完全匹配性其他地区。 区域拷贝出现在参考基因组多处时发生这种情况(分异性重复性 ), 或常见高重复性序列时发生。

In many cases, such mapping difficulty can be overcome by utilizing known variation patterns in the population, rather than just a single reference genome.  Suppose a short read (or read pair) matches two regions, A and B, equally well but imperfectly, with two nucleotide differences from the reference genome in each region.  Based on the reference alone, a mapper can only pick A or B at random and align there with zero MAPQ.  But suppose we know that the read's two differences from region A occur commonly in the population, while its two differences from B have not been observed in the population.  We can use this knowledge as a guide to map the read to region A, with reasonably high confidence.

图参比法帮助绘制长久以来一直推荐的人口数据。图参比法中,在图参比中观察到的交替序列内容表示各种相异并相归路径。图8A显示多种类型变异可表示方式。样本阅读可允许通过图对齐

图8图形基因组
图8图形基因组

图形基因组概述:图参考中,在群中观察到的替代序列内容表示各种异并路径B) 多相位alt等同实例与局部重叠

DRAGEN映射器像其他常用映射器一样使用线性引用为基准线性引用。但它有两种能力支持线性引用扩展为有效图和映射读法与先向隐式图对齐后向线性引用路径投射

First, the DRAGEN Mapper supports injecting a population nucleotide substitution as a multi-base IUPAC-IUB code in the reference sequence.  For example, a reference "A" nucleotide known to sometimes be "G" in the population can be encoded as "R".  When aligning a read across the "R" position, an "A" or "G" in the read both score as a match.  This is identical behavior to aligning a read to the equivalent graph construct, a linear path which forks into "A" and "G" paths then immediately converges again.  We also upgraded DRAGEN's seed mapping to populate seed K-mers matching either the reference or alternate base into the mapping hash table, so there is no sensitivity loss mapping to such positions.

Second, the DRAGEN Mapper has an advanced "alt awareness" capability which allows augmenting the reference with "alt contigs" representing alternate paths in a graph, each with predefined liftover alignments into the linear reference.  Whenever sample reads align best to one of the alt contigs, the liftover knowledge is used to report an alignment to the projected position in the linear reference – with potentially high confidence (MAPQ) because the alt contig alignment is not treated as competing with its linear reference projection, but rather as a guide to that projected alignment.  Once again, this is identical behavior to aligning reads to an equivalent graph construct.  But in this case, any graph-reference construct can theoretically be represented as one or more alt contigs with appropriate liftover.

DRAGEN团队使用这两个能力用难以映射区域观察小变异增加hg38值。为迎接这一挑战,我们把人口源限制为从16长读欧式样本中调用分级变异值。我们注入隔离人口核素代换多基代码,并注入复杂多组数变换:插入删除、复杂代换和小变异集群分解单机式

图8B显示Chromocome 1区域,该区域因多分片复制而分类难映射,见UCSC浏览器视图底部显示。我们在图7B底部添加三平方图阵列图7B底部粉色轨迹,每个图7B下方包含小数相位小变方数。只有这些数小群标数可以足以引导多组读正确分片复制数

扩展群集变量参考后,我们方法的美性是映射正常操作,仿佛引用为hg38。DRAGEN映射程序使用多基代码和alt配置提高匹配分数的工作,样本读匹配群集机型并预测线性Hg38参考最佳匹配值供变换使用。向增强引用映射简单生成更精准hg38BAM,该变式快速提高调精度而不修改变式调用器

DRAGEN图精度增益观察Ashkenazi三大类人,我们需要找到一种不依赖真象集的方法,因为NIST v4.2真象集目前只提供Ashkenazi三组HG002/3/4取而代之的是,我们随机从1000基因组项目中的欧裔组选择9名参赛者,比较对齐读取DRAGEN遗留图和DRAGEN图DRAGEN图大大降低了所有样本分析基础置换率(对齐阅读基数和对应参考序列相匹配率)(图9)GRCh38显示左转DRAGEN_GRCH38_graph基替换率计算GRCh38相位减基替换率表示阅读映射提高,可提高变异调精度分析结果显示DRAGEN图增益扩展至其他个人

图9提高采样不匹配率
图9提高采样不匹配率

GRCh38Hash表和'DRAGEN_GRCH_graph'比较使用hg38hash表并加

并发现DRAGEN图可纠正引用偏差图10显示变量Alle频率分布异变调取自VCF并用DRAGEN遗留物和DRAGEN图并用低应用床相交低可映射区图分布接近理论预期值(即图VAF分布优于中心值和对称近0.5)。

人可以猜想图反射VAF分布高点,因为alt矩形动作强拉读数正确堆放位置中包含alteles,而不是拉回支持读数但由于分布现在更多居于50%左右,alt阵列偏向动作实属纠正性。它也有理由认为缺代词轮廓在一个难以映射的轨迹上,读支持altalle更有可能从堆积中缺失或极低MAPQ。因此,我们假设alt轮廓在这方面的主要作用是减少引用偏差并纠正VAF分布

图10遗留图映射模式 Altele频率分布
图10遗留图映射模式 Altele频率分布

图模式纠正参考偏差并改变VAF平均值、中值和偏差统计接近预测值

DRAGEN创新:联合检测重叠变异

额外精度增益,我们用小变异调用多片低悬浮果计算传统变异调用法设计时考虑单轨数,当事件分解独立时效果良好,但没有准确调用重叠事件(SNP和INDELs)或短连重用区假设我们可以提高变异调精度 将近地合并成单一区域 并配对机型类 而不是事件对

我们使用以下标准查找多址多变量区域:异端相重叠,异端在STS区域或离STS区域不到10个基点,或异端距离小于10个基点斯特克区域是联合检测的优选方数,因为1)这是PCR诱发INDEL错误发生地,可能与真变式SNP重叠2),这也是真INDEL变方数发生地,彼此间或与SNP重叠33)时有同质INDEL读法半偏差表示同质聚合物尾部INDEL而非真实位置(g.开始或中间同族聚合物)JD有效恢复所有案例真实变异

并修改变换调用算法生成全机型列表,进制步骤中,我们计算机型对与观察读堆积的可能性。最后,使用机型对数映射,我们计算机型后位概率对事件对数并报告机型最大后位概率

发现这导致虚负值大幅下降,最突出的是INDELs图11)JD帮助营救变异调用前未检测到(因为信分过低),它也有助于纠正基因型差错(例如把异行通用同行通用),两者都提高敏感度。JD特别为INDELs服务的原因是它解决INDEL(INDEL重叠SNP和STS区域INDEL)问题,而这些问题以前没有通过简单基于列事件编程处理。

图11三角洲出错率联合检测开关重叠变异
图11三角洲出错率联合检测开关重叠变异
  • FP+FN和JD大全INDELs使用敏感度增益
  • 栏图显示DRAGEN v.3.6v.3.7

DRAGEN图显著减少扩展真象集中总误差计数

图12显示传统管道(DRAGEN3.6和BWA-MEM)从前一套真象转置为扩展真象集(v.3.3.2)时总误差数大幅增加总误差增加的原因是在传统短程管道不易访问区域扩展真象集中添加变异FNDRAGEN图(原为DRAGEN3.7)误差总数大为减少FP+FN

图12DRAGEN图改进和全误计减法
图12DRAGEN图改进和全误计减法

sNPF+FNBINDELFP+FN

效果汇总和结果可应用性超出精度FDA挑战

挑战为参与者提供契机,当然也为IllumaDRAGEN团队提供契机,聚焦新领域创新,其果实将在下几版发布德拉根市DRAGEN3.7启动于2020年10月26日发布DRAGEN图可表示多寄存器机型引用,提高全局精度并减轻线性引用偏差能力已经显示,即使有2x150长读配方,我们现在可以调用比难以映射区域所认为可能的精度高得多的变方有了这种经验后,我们将不懈地努力完善分析并扩展其余区域范围。