跳到内容

审阅者:一种用于在包含长重复扩展的区域中可视化短读取对齐的方法

多尔zhenko和Michael A. Eberle

分享这篇文章

介绍

由相对较短的DNA片段重复组成的序列,称为串联重复序列(TRs),出现在整个基因组中(如图1)。与其他基因组区域相比,TR的突变率可高10到1000倍,这使得TRs的贡献很大1对人类遗传变异。TRS主要通过“滑动”突变,其中重复数量增加或几代之间的减少。累积证据表明,TRS在基本蜂窝过程中发挥作用2,3串联重复序列的大量扩增与多种神经系统疾病有关,包括肌萎缩侧索硬化症(ALS)、脆性X综合征和各种形式的共济失调。

图1

用CAG主题串联重复。

对一个包含TR的区域进行测序会产生一组读,这些读部分或完全重叠于重复序列(图2)。通过将这些读的排列拼接在一起,我们可以确定每个单倍型上的重复序列的长度。我们的小组已经开发了几种针对这两种目标的方法4,5和基因组6TR分析。在这里,我们专注于扩展服务4,5,一种用于对包含一个或多个相邻TR的区域进行有针对性分析的方法,该方法可以估计比读取长度更短和更长的重复的大小。

TR基因分型是一个非常困难的问题,即使是最好的方法有时也会做出错误的基因型调用。因此,重要的是要有稳健的可视化方法来检查用于对相关重复进行基因分型的读取比对。此外,这种可视化方法可以检测重复基序的变化(例如,中断),这可能具有临床意义的影响7、8.标准数据可视化管道通常限于显示读取对参考基因组的比对,因此对于相对于参考的重复扩展或用不同长度的等位基因膨胀的重复不充分。要解决这些问题,我们开发了重复扩展查看器(审阅者) - 一个用于可视化ComputeHunter输出输出的图形读取的工具。审阅者通过相邻的重复进行分阶段确定单倍型序列,然后将读取对齐分配给这些单倍型。得到的静态图像使得可以在视觉上评估给定基因型呼叫的准确性并识别重复序列是否包含任何中断。

图2

通过对长于读取长度的串联重复序列进行测序而产生的配对读取。

可视化串联重复区域中的读取对齐

REViewer用于显示ExpansionHunter生成的读取对齐(图3,方框1-3)。这些对齐是通过将源于目标区域的读取重新对齐到对应的序列图来获得的,该序列图编码位于目标区域的一个或多个重复5.然后,REViewer使用ExpansionHunter产生的重复基因型构建假定的单倍型序列,然后选择一对与读比对一致性最高的单倍型(图3,框4-6)。(对于单倍体染色体上的重复,跳过这一步。)接下来,REViewer确定每个单倍型上每个读对的可能对齐位置集。例如,一对读原始旁侧序列内共享的两个单只有一个对齐的位置在每个单体型(图3中,框7),而一双读的伴侣都是由重复序列有多个可能的起源与足够长的重复单(图3中,框7 b)。为了生成读堆,REViewer为每个读对随机选择一个对齐位置。此步骤将重复指定的次数(默认为10,000),以生成多个连环。每个单倍型覆盖最均匀的堆叠被选择用于可视化(图3,框8)。

图3.

审阅者可视化方法概述。

该算法基于思想:如果给定的基因座良好测序并且每个组成部分重复正确,则可以将读取分配以达到每种单倍型的均匀覆盖。(尽管可能不会被分配给原产地的正确单倍型,特别是在重复纯合的情况下,并且所得的单倍型相同。)相反,如果重复的尺寸显着高估或低估,则没有读取的分配将导致甚至堆积,使基因分型错误易于注意到。

可视化准确基因分型重复

在本文的其余部分,我们将回顾由REViewer从real中生成的read pile的示例4和模拟数据。我们从对应于读取的准确基因型的堆叠开始。

一个简短的重复

考虑阅读堆积ATXN3重复的等位基因比图4所示的读取长度短。该重复是基因分型20/20(每位等位基因上的20个基序拷贝)。该图的每个面板对应于单倍型(顶行中所示的单倍型序列)。单倍型序列和读取根据与重复(橙色)或周围侧翼序列(蓝色)重叠着色。显示了读取中的所有不匹配的基础。

堆积图显示,基因型调用被reads很好地支持,因为每个等位基因都被许多跨越reads(跨越整个重复的reads)支持,因为没有不一致的对齐的reads。(差异比对意味着读取与两个单倍型中的任何一个不一致——例如,读取40个重复将与基因型20/20不一致。)在重复序列中有明显的中断迹象。例如,第三个到最后一个基序的胞嘧啶突变为胸腺嘧啶。

图4.

一堆的阅读ATXN3重复基因型20/20。序列中断对应于大多数读对齐中的不匹配位置。

扩大重复

图5描述了DMPK用扩展的等位基因重复。扩展重复由读取得到很好的支持,因为审阅者能够在整个重复过程中分发读取,以在整个单倍型中实现类似的读取覆盖。(重要的是要记住,重复内的读取的对准位置是随机选择的。)短等位基因也通过大量跨越读取很好地支持。较微弱的颜色描绘的对齐对应于可以分配给Allele的读取。

图5.

一次阅读的堆积DMPK重复一个等位基因的扩展。

具有两个相邻重复的轨迹

为了演示一个更复杂的REViewer应用程序,我们将其应用于HTT重复区域包含两个相邻的重复:致病的CAG重复和附近的“讨厌的”CCG重复。前者的基因型为14/17,后者的基因型为9/12。因此,图6所示的一个单倍型分别包含大小为14和12的重复序列,而另一个单倍型包含大小为17和9的重复序列。很明显,这两种单倍型都得到了reads的支持。此外,堆积图显示,在两个单倍型的CCG重复基序的第二个副本中都有一个G到a突变。

图6.

一堆的阅读HTT包含两个附近重复的轨迹。

可视化不准确的基因分型重复

本节描述了与不准确基因型重复相对应的读取堆积示例。我们使用模拟数据来说明假阳性和假阴性重复扩展调用。

被高估的重复规模

为了给出对应于假阳性重复扩展呼叫的堆叠的示例,我们模拟了来自的读数C9ORF72重复区域与纯合基因型10/10。然后我们在一个近乎完美的C均聚物上抬起,这与之有点紧密相似C9ORF72重复序列,运行REViewer,将重复基因型由10/10改为10/30。图7描述了相应的读取堆积。正如预期的那样,叠加显示,除了一个读取放置在单倍体上的较长重复也与较短的单倍体一致(这些读取用较淡的颜色描述),只有一个未对齐的读取支持扩展。在实践中,这可能被认为是由一次低质量读取引起的误报。

图7.

错误地称为膨胀C9ORF72重复一遍。

低估的重复大小

要生成假阴性重复扩展调用的示例,我们模拟了一个FMR1用基因型15/55重复,然后强制审阅者生成与(不正确)基因型15/30相对应的读取堆叠。图8显示了所得堆叠。请注意,为了使源自尺寸55的重复在尺寸55内的读取,审阅者将对齐的末尾夹在最长等位基因的尺寸。读取的实际剪裁部分显示为具有所示基本序列的灰度段。因为存在多余的读取重复与30个图案的重复,因为所有这些读取由重复序列组成,我们得出结论,重复的大小可能被低估。

图8.

一个FMR1与最长等位基因大小被低估的基因型相对应的重复堆积。

限制

REViewer是由ExpansionHunter生产的用于评估重复基因型测序数据一致性的工具。它提供了一种机制,用于审查临床环境中支持基因型呼叫的证据,并识别有问题的角落病例,以推动未来的发展。由REViewer生成的读堆图可能包含不准确性:重复可能不会被正确地分阶段(例如,当重复彼此相距很远时),与两个单倍型一致的读对通常会被分配给不正确的单倍型。此外,当前版本的REViewer可以可视化跨度不超过片段长度的重复(较长的重复以片段长度为上限)。

结论

我们开发了一种工具,用于可视化由ExpansionHunter确定的支持重复基因型的读码比对。为了显示全长比对,评审员通过对相互靠近的所有重复序列的基因型进行分阶段来确定目标位点的单倍型序列。评审员在单倍型之间分配读数,同时随机选择具有多个可能来源的读数位置,以便读数在单倍型之间和单倍型内部尽可能均匀地分布。虽然许多单独读取的位置可能不正确,但该图使对给定基因型调用进行有效的视觉评估成为可能。我们还证明了可以使用这些图来检测重复序列中的中断和重复周围的序列中的中断。目前正在开展工作,以开发和验证呼叫中断序列的能力,这些中断序列的存在可能具有临床意义。

最后,我们想要注意的是,REViewer可以用于可视化短索引(因为ExpansionHunter对这种变体类型有基本的支持),并且原则上可以与其他变体类型一起工作。如果您在使用REViewer时遇到任何问题或对改进程序有任何建议,请不要犹豫与我们联系(Egor)edolzhenko@illumina.com和迈克meberle@illumina.com).

参考文献
  1. 范浩,褚建勇。简要介绍短串联重复突变。基因组蛋白质组生物信息学。2007年2月;5(1):7-14。内政部:10.1016/S1672-0229(07)60009-6。
  2. 王志强,王志强,王志强,等。短串联重复对人类的基因表达变异的丰富贡献。NAT Genet。2016年1月;48(1):22-9.
  3. 汉南区AJ。串联重复介导健康和疾病的遗传可塑性。纳特·杰内牧师。2018年5月,19(5):286 - 298。
  4. Dolzhenko E,Van Vugt JJFA,Shaw RJ等人。检测无PCR的全基因组序列数据的长重复扩展。Genome Res。2017年11月27日(11):1895-1903。
  5. 等。扩展业务:基于序列图的工具,用于分析短串联重复区域的变化。生物信息学。2019年11月1日;35(22):4754-4756.
  6. Dolzhenko E,Bennett Mf,Richmond Pa等。扩展服务Denovo:用于在短读测序数据中定位已知和新的重复扩展的计算方法。基因组Biol。2020年4月28日,21(1):102。
  7. 克劳斯-佩罗塔膨胀,马赛主义和中断:纺丝大脑共济失调中的CAG重复突变的机制1型。小脑ataxias。2016年11月22日;3:20.
  8. Wright GEB、Collins JA、Kay C等。不间断的CAg的长度与聚谷氨酰胺尺寸无关,导致亨廷顿疾病的全身稳定性增加,亨廷顿疾病的启动。我是詹·赫内特。2019年6月6日; 104(6):1116-1126。