摘要
preconfda最近组织了Truth Challenge V2,在难以映射的区域比较映射和变体调用算法的准确性,这些算法依赖于从链接和长读测序中获得的新真值集。fda于8月3日公布了挑战结果,DRAGEN的mapper +变体呼叫者赢得了Illumina读数在难以绘制区域和所有基准区域类别的准确性竞赛,呼叫错误分别比第二名参赛者少38%和28%。在这个挑战中,DRAGEN的性能比之前的DRAGEN版本高出了近50%,同时仍然在一个20核服务器+1个FPGA上在不到25分钟的时间内分析整个基因组。为了实现这些结果,DRAGEN使用了替代感知映射功能,将数十万个来自相阶段种群单倍型的短备用contigs添加到hg38引用中,有效地将其演变为图引用。此外,DRAGEN变体调用者使用了新技术来更好地识别和处理读堆中的重叠变体。
简介
据估计,99.9%的人类基因组在个体之间是保守的。这意味着只有0.1%的基因会导致一个人患癌症的风险升高,预测他们无法代谢特定的药物,或者解释他们遗传性疾病的病因。准确识别个体之间的遗传变异在精准医疗、疾病诊断、疾病遗传起源研究和药物发现中至关重要。在这种程度上,瓶中基因组(GiaB)联盟和国家标准与技术研究所(NIST)已经提供了选择的主题的真值集,如NA12878,覆盖了基因组的很大一部分,允许生物信息学家测量他们的工具识别变异的准确性。特别重要的是映射和变量调用步骤。
GiAB联盟和NIST最近使用链接和长读取发布了一个扩展的真值集V4.2,它覆盖了92%的基因组(高于之前的85%),显著提高了同源区域和难以绘制区域的覆盖范围,其中包括193个临床相关基因。这些真值集是一种宝贵的资源,也是开发二级分析方法并对以前更不透明的基因组区域进行基准测试的关键推动者。虽然NIST的真值集是通过利用长读取技术来描述通常难以访问的区域而开发的,但我们在这里证明,通过对DRAGEN绘图能力和小变量调用的突破性改进,DRAGEN现在在使用Illumina读取的基因组难以绘制的区域中提供了更好的准确性。这些结果强调了两个关键结论:
- 通过利用阶段变异的群体单倍型,并使用群体衍生的alt contigs增加参考指数,DRAGEN mapper可以有效地绘制图谱基因组,并改善Illumina reads在这些困难区域的定位。这个新功能有效地扩展了Illumina的阅读范围并且可以在以前无法访问的区域中实现精确的映射和变量调用。
- 使这一成就特别重要的是,难以绘制的区域包含193个临床相关基因,如果没有特定的靶向检测和专门的信息学,这些基因的变异是不容易识别的。有了这些最新的改进,DRAGEN现在可以在这些基因中产生更好的变体调用精度与正常的WGS/WES运行相比,这反过来又能在临床实验室中得到更好的诊断。亚博下载app
Illumina reads是迄今为止使用最广泛的测序技术,因为它的准确性和成本效益。利用短读来解析基因组中包含许多临床相关基因的难以绘制的区域,为进一步加速诊断决策和继续帮助识别患者的致病变异提供了机会。
fda挑战概述
PrecisionFDA真相挑战赛V2由PrecisionFDA和GIAB联盟与NIST赞助。这一挑战是为了在一个共同的参考框架上评估小变量调用管道的性能,重点是在难以绘制的区域、分段重复和主要组织相容性复合体(MHC)进行基准测试。
的瓶中的基因组(GIAB)Consortium最近使用链接和长读取开发了一套针对特定三人组的高可信度真理调用。高质量的长读通常会在难以绘制的地区产生更高的信心。有了这种能力,GIAB扩展的真值集现在覆盖了7%的基因组,超过了之前的真值集,包括许多医学相关基因。扩展真值区域在低可映射性区域和分段重复区域中有超过2.7亿个碱基1.
精确的fda挑战结果
DRAGEN参加了Illumina reads类别的比赛,并在三个测试区域中的两个(难以映射区域和所有基准区域)中排名第一。在图3中,柱状图在y轴上显示SNV和INDEL组合的误差总数,FP+FN,在x轴上显示各种提交结果。在所有基准区域和难以绘制区域,DRAGEN提交的作品分别以28%和38%的错误比第二好的提交作品轻松获胜。
用户须知
通过扩展真值集v4.2, DRAGEN图的总误差减少了50%。在对旧的v3.3.2真值集进行基准测试时,这种性能增益并不明显。这部分是因为v3.3.2真值集不包括难以绘制区域的问题,但也因为v4.2真值集更正了v3.3.2中存在的错误。实际上,当使用旧的真值集v3.3.2时,DRAGEN图似乎比遗留DRAGEN产生了额外的SNP和INDEL假阳性(FP)。然而,很大一部分额外的FP调用是由于v3.3.2 true VCF不完整。在v4.2真值VCF中,相同的“FP”变体被标记为真阳性。
为了表明DRAGEN图有效地扩展了Illumina的读取范围,我们将扩展真值V4.2真值集中的DRAGEN准确度与使用DeepVariant调用器的PacBio HiFi长读取所达到的准确度进行了比较。
PacBio HiFi读数作为PrecisionFDA Truth Challenge V2的一部分提供2使用PBMM2 v1.3进行对齐,并使用DeepVariant v1.0.0和WhatsHap v1.0进行处理,与DeepVariant -pacbio-模型-案例研究中所述的完全一致3..本案例研究涉及到两个-一步变量调用的过程。在第一轮调用之后,snv被分阶段进行,并用于对输入BAM进行单倍标记。然后将单倍标记的BAM再次用作DeepVariant的输入,调用变体,并再次进行相控阶段。所有比较均使用最后的2期VCF。
如图5所示,DRAGEN图比之前的DRAGEN版本明显更接近长读的SNP精度。这两个版本的DRAGEN都比长读取管道产生更好的INDEL精度。
DRAGEN图:向后兼容性和运行时间
除了扩展真值集的错误总数大幅减少外,DRAGEN图的另一个吸引人的地方是它完全兼容标准BAM和VCF文件格式,以及现有的参考基因组。要启用DRAGEN图,用户只需要用图哈希表(HT)更新哈希表,这可以通过DRAGEN命令行完成。使用此HT进行映射将生成标准hg38 BAM,图形对齐将自动投影到主程序集。目前DRAGEN图HT在hg38领域可用,但GRCh37领域的版本将很快可用。更重要的是,图形功能在运行时没有额外的成本!
接下来,我们将深入研究新的DRAGEN映射功能和变体调用改进,这些改进在preconfda Truth V2挑战中产生了获胜的精度结果。
DRAGEN创新:支持图谱基因组
PrecisionFDA Truth V2挑战赛集中在“难以绘制”的区域,GIAB联盟扩展了他们的基准测试的主要区域。在这些区域,使用短读数据进行精确的变量调用是非常具有挑战性和容易出错的。也许不足为奇的是,在“难以映射”区域进行准确分析的主要障碍是难以将短读准确映射到这些区域。变体调用者分析映射到给定位点的读的堆积,以确定那里最可能的原始序列内容,但是如果堆积丢失了许多应该存在的证据读,或者受到错误映射的外部读的污染,或者映射置信度最小(MAPQ)的对齐,则无法准确地执行此操作。
由于一个区域(如MHC)是高度多态的,并且样本读取与参考基因组差异如此之大,以至于作图者无法找到或识别一个良好的匹配,因此可能会出现作图困难。然而,更常见的情况是,当样本读取与某个区域匹配得相当好,但也与其他区域匹配得差不多或差不多时,就会出现映射困难。当一个区域的近拷贝出现在参考基因组的几个地方(节段复制),或者在常见的高度重复序列的情况下,就会发生这种情况。
在许多情况下,可以通过利用群体中已知的变异模式来克服这种定位困难,而不仅仅是一个单一的参考基因组。假设一个短读(或读对)匹配两个区域,a和B,同样好,但不完美,每个区域与参考基因组有两个核苷酸差异。仅基于引用,映射器只能随机选择a或B,并以零MAPQ对齐。但假设我们知道,在总体中,read与区域A的两个不同之处普遍存在,而与区域B的两个不同之处在总体中没有观察到。我们可以使用这些知识作为将read映射到区域a的向导,并具有相当高的置信度。
图表参考是一种用人口数据辅助绘制地图的方法,已经被提出很久了。在图参考中,在种群中观察到的交替序列内容表示为各种发散和收敛路径。图8A显示了几种类型的变化是如何表示的。示例读取可能被允许与参考图中的任何最佳匹配路径对齐。
DRAGEN Mapper,像其他常用的映射器一样,使用线性引用作为基线。但是它有两个功能,支持将线性引用扩展为有效图,以及以一种与先将它们对齐到隐式图,然后将这些对齐投影到线性引用路径相同的方式进行映射读取。
首先,DRAGEN Mapper支持在参考序列中注入一个多碱基IUPAC-IUB编码的总体核苷酸取代。例如,在种群中有时已知为“G”的参考核苷酸“a”可以被编码为“R”。当读数与“R”位置对齐时,读数中的“a”或“G”都被视为匹配。这与将read对齐到等效的图构造是相同的行为,一个线性路径分叉为“a”和“G”路径,然后立即再次收敛。我们还升级了DRAGEN的种子映射,将匹配参考或备用基的种子K-mers填充到映射哈希表中,因此映射到这些位置没有灵敏度损失。
其次,DRAGEN Mapper具有高级的“alt感知”功能,允许使用“alt contigs”来表示图形中的替代路径,每个路径都具有预定义的线性引用的提升对齐。当样本读取的数据与其中一个alt contig对齐最好时,将使用提升知识报告与线性参考中投影位置的对齐——具有潜在的高置信度(MAPQ),因为alt contig对齐没有与其线性参考投影竞争,而是作为投影对齐的指南。同样,这与将读取数据对齐到等效的图构造是相同的行为。但是在这种情况下,任何图引用构造理论上都可以表示为一个或多个具有适当提升的alt contig。
DRAGEN团队利用这两种能力,在难以绘制的区域用观察到的种群小变异来增强hg38。对于这一挑战,我们将人群来源限制为来自16个长读(PacBio HiFi)欧洲样本的分阶段变异。我们将孤立的群体核苷酸替换(SNVs)作为多碱基编码注入,并将更复杂的群体变异作为添加的alt contigs注入:插入和删除,复杂的替换,以及在单个单倍型上分阶段的小变异簇。
图8B显示了1号染色体区域,由于几个其他的片段重复副本,被分类为难以映射,如UCSC浏览器视图底部所示。我们在这个区域上添加了三个alt contigs,图7B底部的粉色轨道,每个轨道包含少量的阶段性小变体。仅仅这些少数的种群标志就足以引导许多读取到正确的分段副本。
这样,在用种群变异扩大了参考值之后,我们的方法的美妙之处在于,映射操作正常,就好像参考值只是hg38一样。DRAGEN Mapper做的工作是使用多碱基代码和alt contigs来提高样本读取匹配总体单倍型的对齐分数,并将最佳对齐投影到线性hg38参考上以用于变体调用。映射到增强引用只会产生一个更准确的hg38 BAM,这在不修改变量调用者的情况下显著提高了变量调用的准确性。
为了验证从德系犹太人三人组观察到的DRAGEN图精度增益是否可以推广到其他个体,我们需要找到一种不依赖于真集的方法,因为NIST v4.2真集目前仅适用于德系犹太人三人组HG002/3/4。相反,我们从1000基因组计划的欧洲血统队列中随机选择了9名参与者,并将对齐的reads与DRAGEN遗留和DRAGEN图的参考文献进行了比较。我们发现DRAGEN图大大降低了所有分析样本的碱基替换率(对齐的读基与相应参考序列之间的不匹配率)(图9)。左侧显示对齐读取与GRCh38的基本替换率,右侧显示DRAGEN_GRCh38_graph。这9个个体中没有一个被用于构建图表参考。计算了阶段性单倍型所跨越的GRCh38部分的基础替代率(约110Mb)。基替换率的降低表明读映射得到了改善,这可以实现更好的变量调用精度。结果表明,DRAGEN图的增益可以扩展到其他个体。
我们还观察到DRAGEN图可以纠正参考偏差。图10显示了用DRAGEN遗留和DRAGEN图获得的VCF中杂合变异呼叫的变异等位频率(VAF)分布,与低配位层相交。在低可映射性区域,基于图的分布更接近于理论上的预期(即,图VAF分布在0.5附近更好地居中且更对称)。
人们可以推测,该图使VAF分布更倾斜,因为alt contigs在将给定位置的包含alt等位基因的reads拉入正确的堆中时比拉入支持ref的reads更强烈。但由于分布现在更集中在50%左右,alt contigs的偏向行为实际上是一种纠正。这也是有道理的,在没有Alt的情况下在一个难以定位的位点上,支持alt等位基因的reads更有可能从堆积中缺失,或者具有非常低的MAPQ。因此,我们假设alt contigs在这方面的主要影响是减轻参考偏差,从而纠正VAF分布。
DRAGEN创新:重叠变异的联合检测
为了获得额外的精度,我们在小变量调用中解决了一个更容易实现的目标。传统变异呼叫者的基因分型计算被设计为在基因分型事件发生时考虑单个位点。当事件是分离且独立的,但不能准确地调用重叠事件(SNP和INDELs之间)或由短串联重复(STR)区域分隔的事件时,这种方法执行得很好。我们假设,我们可以通过将附近的位点合并到单个区域和单倍型的基因分型对,而不是事件对,来提高变异呼叫的准确性。
我们使用以下标准来识别多个位点上的多个变体的联合检测(JD)区域:位点具有相互重叠的等位基因,位点位于STR区域或距离STR区域小于10个碱基,或位点之间距离小于10个碱基。STR区域是联合检测的良好候选区域,因为1)这是pcr诱导的INDEL错误发生的地方,可能与真实的变体SNP重叠,2)这也是真实的INDEL变体发生的地方,它们可能彼此重叠或与SNP重叠,3)有纯合子INDEL有一半的reads错位,以表示在均聚物末端的INDEL,而不是在其真实位置(例如均聚物的开始或中间)。JD在所有这些情况下都能有效地恢复真正的变体。
然后,我们修改变量调用者算法以生成一个完整的单倍型列表,其中表示JD区域内所有可能的等位基因组合。然后,在基因分型步骤中,我们计算每个单倍型对给定观察到的读串的可能性。最后,使用单倍型到等位基因的映射,我们计算成对事件的基因型后验概率,并报告具有最大后验概率的基因型。
我们发现,这导致假阴性的大幅减少,最显著的是INDELs (图11)。JD有助于挽救以前未被检测到的变异呼叫(因为置信分数太低),也有助于纠正基因型错误(例如,将杂合呼叫转换为纯合呼叫),这两者都提高了灵敏度。JD特别受益于INDELs的原因是它解决了涉及INDEL (INDEL重叠SNP, STR区域的INDEL)的情况,这些情况以前无法通过简单的基于列的事件基因分型得到正确处理。
DRAGEN图显著降低了扩展真值集中的总误差计数
图12显示,使用传统管道(DRAGEN 3.6和BWA-MEM),当从前一个真值集(v.3.3.2)切换到扩展真值集(v.4.1)时,总错误数显著增加。总误差的增加是由于在传统短读管道不容易访问的区域中,扩展真值集中存在的变量的添加FN。使用DRAGEN图(如图DRAGEN 3.7所示),FP+FN的总误差数显著降低。
结果总结和结果的适用性超越了fda的挑战
这一挑战为参与者提供了一个机会,当然也为Illumina的DRAGEN团队提供了一个专注于创新新领域的机会,其成果将在接下来的几个版本中发布DRAGEN从2020年10月26日发布的DRAGEN 3.7开始。我们将此挑战所使用的方法视为DRAGEN主要新功能的开始,这些功能将得到改进和推广,包括结构变体、拷贝数变体和重复扩展。DRAGEN图可以在其参考中表示多个祖先的单倍型,全面提高准确性并减轻线性参考的偏差。这些能力已经表明,即使有2x150个长读对,我们现在也可以以比在难以绘制的区域中所认为的更好的精度调用变体。有了这些经验,我们将不懈努力,在其余地区完善和扩展分析。
参考文献
- 瓦格纳J。对具有链接和长读取的小变量进行基准测试。bioRxiv。2020年7月。
- fda真相挑战V2:在难以绘制的区域调用短读和长读的变体
- 使用DeepVariant从PacBio HiFi读取小变量调用