跳到内容

审稿人:一种在包含长重复展开的区域中显示短读对齐的方法

多尔zhenko和Michael A. Eberle

分享这篇文章

介绍

由相对较短的DNA片段重复组成的序列,称为串联重复序列(TRs),出现在整个基因组中(如图1)。与其他基因组区域相比,TR的突变率可高10到1000倍,这使得TRs的贡献很大1人类基因变异TRs主要通过“滑移”突变,即在世代之间重复的数量增加或减少。越来越多的证据表明TRs在基本的细胞过程中发挥作用2,3串联重复序列的大规模扩展与各种神经疾病有关,包括肌萎缩性侧索硬化症(ALS)、脆性X综合征和各种形式的共济失调。

图1

CAG基序串联重复。

对一个包含TR的区域进行测序会产生一组读,这些读部分或完全重叠于重复序列(图2)。通过将这些读的排列拼接在一起,我们可以确定每个单倍型上的重复序列的长度。我们的小组已经开发了几种针对这两种目标的方法4,5和全基因组6TR分析。这里我们专注于扩张猎人4,5,一种用于对包含一个或多个相邻TR的区域进行有针对性分析的方法,该方法可以估计比读取长度更短和更长的重复的大小。

TR基因分型是一个非常困难的问题,即使是最好的方法偶尔也会做出错误的基因型判断。因此,重要的是要有健壮的可视化方法来检查用于基因型重复的reads的排列。此外,这种可视化方法使检测重复基序的变化(如中断)成为可能,这在临床上具有显著的影响7、8. 标准数据可视化管道通常仅限于显示与参考基因组的读取比对,因此不适合相对于参考基因组扩展的重复序列或具有不同长度等位基因的重复序列。为了解决这些问题,我们开发了Repeat Expansion Viewer(REViewer)——一种用于可视化Expansion Hunter重新对齐的读取输出的工具。评审员通过对相邻重复序列进行相位调整来确定单倍型序列,然后将读取比对分配给这些单倍型。由此产生的静态图像可以直观地评估给定基因型调用的准确性,并确定重复序列是否包含任何中断。

图2

通过对长于读取长度的串联重复序列进行测序而产生的配对读取。

可视化串联重复区域中的读取对齐

REViewer用于显示ExpansionHunter生成的读取对齐(图3,方框1-3)。这些对齐是通过将源于目标区域的读取重新对齐到对应的序列图来获得的,该序列图编码位于目标区域的一个或多个重复5.然后,REViewer使用ExpansionHunter产生的重复基因型构建假定的单倍型序列,然后选择一对与读比对一致性最高的单倍型(图3,框4-6)。(对于单倍体染色体上的重复,跳过这一步。)接下来,REViewer确定每个单倍型上每个读对的可能对齐位置集。例如,一对读原始旁侧序列内共享的两个单只有一个对齐的位置在每个单体型(图3中,框7),而一双读的伴侣都是由重复序列有多个可能的起源与足够长的重复单(图3中,框7 b)。为了生成读堆,REViewer为每个读对随机选择一个对齐位置。此步骤将重复指定的次数(默认为10,000),以生成多个连环。每个单倍型覆盖最均匀的堆叠被选择用于可视化(图3,框8)。

图3

审阅者可视化方法概述。

这种算法是基于这样一种思想:如果给定的基因座被很好地测序,并且每个组成重复的基因分型都是正确的,那么就有可能分配reads以实现每个单体型的均匀覆盖。(尽管许多reads可能不能被分配到正确的单倍型来源,特别是在重复是纯合的情况下,产生的单倍型是相同的。)相反,如果一次重复的大小被显著地高估或低估,则没有读值分配将导致均匀的堆积,使基因分型错误很容易被注意到。

精确的基因型重复显示

在本文的其余部分,我们将回顾由REViewer从real中生成的read pile的示例4和模拟数据。我们从对应于精确基因型的堆积开始,这些基因型得到了阅读的充分支持。

一个简短的重复

考虑阅读堆积ATXN3重复其等位基因短于图4所示的读取长度。这种重复是基因型20/20(每个等位基因上有20个基序副本)。这个图的每个面板对应一个单倍型(单倍型序列显示在最上面一行)。单倍型序列和reads根据它们与重复序列(橙色)或周围侧翼序列(蓝色)的重叠而上色。显示读取中的所有不匹配基。

堆积图显示,基因型调用被reads很好地支持,因为每个等位基因都被许多跨越reads(跨越整个重复的reads)支持,因为没有不一致的对齐的reads。(差异比对意味着读取与两个单倍型中的任何一个不一致——例如,读取40个重复将与基因型20/20不一致。)在重复序列中有明显的中断迹象。例如,第三个到最后一个基序的胞嘧啶突变为胸腺嘧啶。

图4

一堆的阅读ATXN3重复基因型20/20。序列中断对应于大多数读对齐中的不匹配位置。

扩大重复

图5描述了DMPK用扩展的等位基因重复。扩展的重复被读取很好地支持,因为REViewer能够在整个重复中分布读取,以在整个单倍型中实现类似的读取覆盖。(重要的是要记住,在repeat中读取的对齐位置是随机选择的。)短等位基因也得到了大量的扩展阅读的支持。用较淡的颜色描述的排列对应于可以分配给任何一个等位基因的读数。

图5

一次阅读的堆积DMPK在一个等位基因上扩展重复。

有两个相邻重复的轨迹

为了演示一个更复杂的REViewer应用程序,我们将其应用于HTT重复区域包含两个相邻的重复:致病的CAG重复和附近的“讨厌的”CCG重复。前者的基因型为14/17,后者的基因型为9/12。因此,图6所示的一个单倍型分别包含大小为14和12的重复序列,而另一个单倍型包含大小为17和9的重复序列。很明显,这两种单倍型都得到了reads的支持。此外,堆积图显示,在两个单倍型的CCG重复基序的第二个副本中都有一个G到a突变。

图6

一堆的阅读HTT包含两个邻近重复序列的位点。

不准确的基因型重复的可视化

本节描述了与不准确基因型重复相对应的读取堆积示例。我们使用模拟数据来说明假阳性和假阴性重复扩展调用。

被高估的重复规模

为了给出一个与假阳性重复扩展调用相对应的堆积示例,我们模拟了从C9ORF72纯合基因型10/10的重复区域。然后我们在一个几乎完美的C均聚物中进行了添加,它有点类似于C9ORF72重复序列,运行REViewer,将重复基因型由10/10改为10/30。图7描述了相应的读取堆积。正如预期的那样,叠加显示,除了一个读取放置在单倍体上的较长重复也与较短的单倍体一致(这些读取用较淡的颜色描述),只有一个未对齐的读取支持扩展。在实践中,这可能被认为是由一次低质量读取引起的误报。

图7

错误地称为膨胀C9ORF72重复

被低估的重复大小

为了生成一个假阴性重复扩展调用的示例,我们模拟了FMR1重复基因型15/55,然后强制审查员生成与(不正确的)基因型15/30对应的读取堆积。图8显示了由此产生的堆积。请注意,为了协调大小为55的重复序列中的读数,评审员将比对末端剪裁为最长等位基因的大小。读取的实际剪裁部分显示为灰色段,显示的是碱基序列。由于有过多的读取与30个基序的重复重叠,并且由于所有这些读取都由重复序列组成,我们得出结论,重复的大小可能被低估。

图8

一个FMR1与最长等位基因大小被低估的基因型相对应的重复堆积。

局限性

REViewer是由ExpansionHunter生产的用于评估重复基因型测序数据一致性的工具。它提供了一种机制,用于审查临床环境中支持基因型呼叫的证据,并识别有问题的角落病例,以推动未来的发展。由REViewer生成的读堆图可能包含不准确性:重复可能不会被正确地分阶段(例如,当重复彼此相距很远时),与两个单倍型一致的读对通常会被分配给不正确的单倍型。此外,当前版本的REViewer可以可视化跨度不超过片段长度的重复(较长的重复以片段长度为上限)。

结论

我们开发了一种工具,用于可视化由ExpansionHunter确定的支持重复基因型的读码比对。为了显示全长比对,评审员通过对相互靠近的所有重复序列的基因型进行分阶段来确定目标位点的单倍型序列。评审员在单倍型之间分配读数,同时随机选择具有多个可能来源的读数位置,以便读数在单倍型之间和单倍型内部尽可能均匀地分布。虽然许多单独读取的位置可能不正确,但该图使对给定基因型调用进行有效的视觉评估成为可能。我们还证明了可以使用这些图来检测重复序列中的中断和重复周围的序列中的中断。目前正在开展工作,以开发和验证呼叫中断序列的能力,这些中断序列的存在可能具有临床意义。

最后,我们想要注意的是,REViewer可以用于可视化短索引(因为ExpansionHunter对这种变体类型有基本的支持),并且原则上可以与其他变体类型一起工作。如果您在使用REViewer时遇到任何问题或对改进程序有任何建议,请不要犹豫与我们联系(Egor)edolzhenko@illumina.com和迈克meberle@illumina.com).

参考文献
  1. 范浩,褚建勇。短串联重复突变的简要综述。基因组蛋白质组生物信息学。2007年2月,5(1):7 - 14。doi: 10.1016 / s1672 - 0229(07) 60009 - 6。
  2. 王志强,王志强,王志强,等。短串联重复序列对人类基因表达变异的丰富贡献。Nat麝猫。2016年1月;48(1):22-9.
  3. 汉南区AJ。串联重复介导健康和疾病的遗传可塑性。Nat牧师麝猫。2018年5月,19(5):286 - 298。
  4. 杜振科等。从无pcr全基因组序列数据中检测长重复扩增。基因组Res。2017年11月,27(11):1895 - 1903。
  5. 等。一种基于序列图的工具,用于分析短串联重复区域的变异。生物信息学。2019年11月1日;35(22):4754-4756.
  6. 等。一种在短读测序数据中定位已知和新的重复扩展的计算方法。基因组医学杂志。2020年4月28日,21(1):102。
  7. 克劳斯-佩罗塔扩张、镶嵌和阻断:脊髓小脑共济失调1型CAG重复突变的机制。小脑共济失调。2016年11月22日;3:20.
  8. Wright GEB、Collins JA、Kay C等。不间断CAG的长度,与多聚谷氨酰胺大小无关,导致躯体不稳定性增加,加速亨廷顿病的发病我是Hum Genet。2019年6月6日,104(6):1116 - 1126。