精度FDA实战V2 受邀基因组创新者展示信息学工作流并展示如何提高DNA覆盖度和小变异调精度IlluminaDRAGEN绘图机+变换调用者赢得难图区和所有基准区类Illuma阅读精度竞赛(即全基因组92%),调用差差比次优参赛者分别少38%和28%yobet亚洲DRAGEN团队引进强机学习并进一步改进图组映射(预期2022年初提供,DRAGEN v3.10发布中的贝塔版)。新的进步驱动DRAGEN在所有基准区和MHC区域所有阅读技术中实现铅精度显示精度FDA真伪V2所收集结果, 对比最新DRAGEN精确度与所有阅读技术提交挑战并描述高精度使用法

/

DRAGEN为精度FDA基准数据中数据精度制定新标准yobet亚洲优化变异调用Illuma机学习和DRAGEN图

塞弗林-卡特鲁斯、瓦伦-Jain、Lisa Murray、Rami Mehio、Gavin Parnaby、Cooper Roddey、Michael Ruehle、Wei-Ting Chen和FanZhang2022年1月12日发布

抽象性

2020年夏精度FDA实战V2受邀基因组创新者展示信息学工作流并展示如何提高DNA覆盖度和小变异调精度IlluminaDRAGEN绘图机+变换调用者赢得难图区和所有基准区类Illuma阅读精度竞赛(即全基因组92%),调用差差比次优参赛者分别少38%和28%yobet亚洲DRAGEN团队引进强机学习并进一步改进图组映射(预期2022年初提供,DRAGEN v3.10发布中的贝塔版)。新的进步驱动DRAGEN在所有基准区和MHC区域所有阅读技术中实现铅精度显示精度FDA真伪V2所收集结果, 对比最新DRAGEN精确度与所有阅读技术提交挑战并描述高精度使用法

精度FDA真情挑战v2

上头精度FDA实战V2目标评估最先进小变异使用常用参考框架,重点是难以绘制区域基准精度、局部重叠和主要历史相容综合体跨区域阅读多排序平台生成(~35XIllumina,~35XPACBiohifi和~50XOxfordNanopore技术)。参与者可单独或结合混合法使用不同技术如图1所示,参与者培训HG002题方法,使用HG002FSTQs输入并参照HG002高置信调集并盲目评估HG003和HG004数据集及相关高置信调集4.2.1 GIAB基准集和基因组分层

图1:精确FDA实战V2概述一号

表1:精度FDA真象挑战V2中所用的顺序数据集特征读长-N50用于总结PacBio和ONT阅读长度覆盖度-跨自序染色体中位覆盖

图2 精度FDA挑战2-Summer 20202
总体性能(A)和提交排名(B)因技术而异和分层化(log尺度)。
一般来说,提交材料使用多技术优于提交所有三大组环境类别单技术A类显示直方图F1%(高者优)用于三种组分层评价跨技术提交计数用浅灰条表示,单技术用色条表示B类显示个人提交性能数据点表示提交分层性能(困难图区,所有基准区,MHC)和线连接提交类别顶级性能标注方块W并标注Techm名称

DRAGEN3.7版本在Ilumina阅读类别中竞争并排名前排三大测试区域中两个区域(硬图区和全基准区)。DRAGEN3.7与前版DRAGEN相比大幅减少假正数和假负数自那以来,我们进一步创新DRAGEN方法,从而提高精度,在所有阅读技术中提升某些类别yobet亚洲下图基因组改进和机器学习组合产生最高精度,由全基区和MHC区域PecripationFDA真象挑战V2测量

DRAGEN精确度提高

DRAGEN团队开发出几大关键修改法提高变异精度覆盖大片人类基因组,同时确保这些改进可推广到广大样本中yobet亚洲首先是图组改进,第二是开发alt制模和参考基因组更新,第三是使用机器学习改善小变异调用器

DRAGEN图基因组包含群件SNP和备用机件类型,以便能够更精确阅读映射无精解FDA实战对象包含在为DRAGEN图组提供变异物的人群中最近,MHC区域通过覆盖大片区域对图作一些改进,人口多异aLThaplo

ALT相容参考基因组可高度相似初级染色体相近部分,可引起阅读映射模糊度和变式调用误差这个问题通过ALT编程解决:识别ALT区域并转换成邻接字符串精度FDA数据集未用于主要ALT制片法中,该法掩码ALT序列~100Mb然而,从每个NIST真题数据集中都观察到数组 Altic诱导变异调用错误(HG001-7)。ALT掩码调整纠正错误

ML模块首次添加DRAGEN3.9并进一步改进3.10使用监督模型使用从DRAGEN变异调用器提取的上下文特征和阅读特征在所有科目上都一致显示重大增益,包括培训期间未使用的其他人群测试数据

表2:自精度FDA真情挑战2以来方法改进提高DRAGEN小微VC精度

DRAGEN3.10使用HG003和HG004FASTQs精确挑战V2VCF上传精度FDA应用生成精度结果由此产生的精度可直接比对提交挑战结果对比显示DRAGEN3.10+Graph+ML性能优于全基区和MHC区域所有阅读技术(Ilumina、HiFi PacBio和ONT)。

HG003/HG004/F1全基区所有提交文件的SNVs和INDELs平均分数。DRAGEN原提交文件使用DRAGEN3.7+graphDRAGEN3.10+图显示比DRAGEN3.7+grap提高图和参考/alt-contig处理,DRAGEN3.10+graph+ML

图3:DRAGEN3.10图和ML精确度与所有基准区精确度FDA真情挑战2比较

表3:六大提交F1评分DRAGEN3.10+Graph+ML优先绑定HiFiPABIO

在MHC区域,DRAGEN3.10对前DRAGEN版本和其他读法技术的增益比全基区更显著F1评分DRAGEN3.10比DRAGEN前次提交挑战大增DRAGEN3.10比所有其他提交文件高F1分数,包括HiFiPABIO和ONT提交文件图4

图4:DRAGEN3.10图和ML精确度与MHC区域FDA v2提交

表4:六大提交F1评分DRAGEN3.10+LM

yobet亚洲机器学习DRAGEN

yobet亚洲在DRAGEN v3.9中,我们添加了强高效机器重校管线作为子线小变换工作流中的一种选择yobet亚洲管道运行机器学习模型ML阶梯重新校准QULGQ字段,这些字段输出为最终VCF在某些情况下ML可更改GT预ML值保留在DQUAL、DGT和DGQ字段中,以便不丢失信息

ML步骤只增加约5分钟30xWGS转入标准工作流,因此精度提高对总运行时间影响有限

图5:DRAGENGENGERML启动工作流

ML模型使用监督离线训练生成模型处理一组基于阅读和上下文特征,提高小变异调用质量分数的精度模型培训使用特征包括可应用性、AF、VC-Qal、DP、GC内容、错配性和其他内部映射、校正和VC度量

下图6显示所有7个NIST主题HG001-7的SNP总误差数结果显示两个主要发现:DRAGEN图在所有7题中一致地将SNP错误减少~50%,显示强健性遍历式(HG002-4为Ashkhanazi三角形和HG005-7为中文三角形)。此外,DRAGENML增减20-30%SNP误差,并在所有7个题目中都持之以恒

图6:HG001通过HG007SNP扩展真象集精确结果v4.2.1VCF和BED

下图7显示所有7个NISTHG001-7区域收集INDEL误差总数结果表明趋势与SNPs相似:DRAGEN图在所有7个科目中均持续减少~30%INDEL错误,而不论祖先(HG002-4为Ashkhanazi三环和HG005-7为中文三环)。再者,DRAGENML增减5-20%INDEL错误,并在所有7个题目中一致减少差错

图7:HG001通过HG007INDEL精确结果扩展事实集

DRAGEN原生 Alt-Mashing

DRAGEN3.9中,我们引入新方法处理本地参考ALT阵列,即保护ALT阵列的战略位置提高精度引入ALT向导法替换ALT向导提升程序,提高精度

DRAGEN高精度提高的同时,主要是5Mbp序列长升对齐有时有问题有很多地方常使用错误或最有用的提升法 长APLT型和初级集成法模棱两可不正确升空可产生稠密多组误映读数和假变换调时不时发现另一地因失序映射和VC问题,这些地方往往局部性但严重性我们引入aleft基础解决方案来解决这些问题

ALT打包法下,类似初级装配段蒙面,不竞相窃取定标或mappaQs极不同的段留空功能基本像诱导序列精度FDA数据集未用于主要ALT制片法中,该法掩码ALT序列~100Mb然而,从每个NIST真题数据集中都观察到数组 Altic诱导变异调用错误(HG001-7)。ALT掩码调整纠正错误DRAGEN隐式引用提供提高变异调用精度提升基础ALT认知法基面掩码法的好处是使用ALT编程而无负效果定义、维护和改进也比较容易随着时间的推移,我们可能继续改进掩码, 但他们已经超载性能更多细节可见DRAGEN参考改进文章3.

MHC区域改善

自3.7版以来,DRAGEN小变异调精度大增,通过ML、ALT制模和图参考改进组合图基参考提高映射和变异调用精度 难以映射基因组区域,如MHC区域MHC区域高度多态化,样本读数与引用大相径庭,使映射器难以找到匹配性可改进映射方法,即添加精选人口机型段,以有效辨别同族区并提供为居民所知道的线性引用替代路径

DRAGEN通过丰富覆盖MHC区域的人口机型改善MHC区域图参考提高映射精度和帮助提高变异调精度,并添加ML使DRAGEN高F1分比PecripationFDA挑战v2提交量高。图参考hable可从IllumaDRAGEN支持页下载4.

8图HG001通过HG007SNP真实性结果

图9:HG001通过HG007INDEL真实性结果

DRAGEN:驱动持续创新和推进基因组分析

DRAGEN平台为NGS数据处理提供高度精确、综合和超快速二级分析持续精度提高和扩大覆盖基因组困难区域是综合基因组解决方案的关键资产,有助于检测具有挑战性和医学相关性的变异

文章显示,未来DRAGEN3.10发布提高在所有阅读技术中产生有竞争力小变精度结合DRAGEN变量调用套件(SV、CNV、扩展杭特和SMN、CY2D6和HLA等目标调用者),DRAGEN帮助覆盖全基因组,推进基因组分析