跳到内容

审稿人:一种在包含长重复展开的区域中显示短读对齐的方法

伊戈尔·多尔琴科和迈克尔·埃伯勒

分享这篇文章

介绍

由相对较短的DNA片段重复组成的序列,称为串联重复序列(TRs),发生在整个基因组中(如图1)。TR突变率可能比其他基因组区域高10到1000倍,使TRs成为主要贡献者1.人类基因变异TRs主要通过“滑移”突变,即在世代之间重复的数量增加或减少。越来越多的证据表明TRs在基本的细胞过程中发挥作用2,3串联重复序列的大规模扩展与各种神经疾病有关,包括肌萎缩性侧索硬化症(ALS)、脆性X综合征和各种形式的共济失调。

图1

CAG基序串联重复。

对包含TR的区域进行测序会产生部分或完全与重复序列重叠的读取集合(图2)。通过拼凑这些读取的比对,我们可以确定每个单倍型上重复的长度。我们的小组为这两个目标制定了几种方法4,5和全基因组6.TR分析。这里我们重点介绍ExpansionHunter4,5,一种针对包含一个或多个相邻TRs的区域进行靶向分析的方法,该方法可以估计比读取长度短或长重复的大小。

TR基因分型是一个非常困难的问题,即使是最好的方法偶尔也会做出错误的基因型判断。因此,重要的是要有健壮的可视化方法来检查用于基因型重复的reads的排列。此外,这种可视化方法使检测重复基序的变化(如中断)成为可能,这在临床上具有显著的影响7,8. 标准数据可视化管道通常仅限于显示与参考基因组的读取比对,因此不适合相对于参考基因组扩展的重复序列或具有不同长度等位基因的重复序列。为了解决这些问题,我们开发了Repeat Expansion Viewer(REViewer)——一种用于可视化Expansion Hunter重新对齐的读取输出的工具。评审员通过对相邻重复序列进行相位调整来确定单倍型序列,然后将读取比对分配给这些单倍型。由此产生的静态图像可以直观地评估给定基因型调用的准确性,并确定重复序列是否包含任何中断。

图2

通过对大于读取长度的串联重复序列进行排序而生成的成对读取。

显示串联重复区域的读取对齐

REViewer被设计用来显示由ExpansionHunter生成的读取对齐(图3,框1-3)。这些比对是通过将源自目标区域的读取重新排列到对应的序列图编码一个或多个位于该区域的重复序列来获得的5..然后,REViewer使用ExpansionHunter产生的重复基因型构建假定的单倍型序列,然后选择一对与读比对一致性最高的单倍型(图3,框4-6)。(对于单倍体染色体上的重复,跳过这一步。)接下来,REViewer确定每个单倍型上每个读对的可能对齐位置集。例如,一对读原始旁侧序列内共享的两个单只有一个对齐的位置在每个单体型(图3中,框7),而一双读的伴侣都是由重复序列有多个可能的起源与足够长的重复单(图3中,框7 b)。为了生成读堆,REViewer为每个读对随机选择一个对齐位置。此步骤将重复指定的次数(默认为10,000),以生成多个连环。每个单倍型覆盖最均匀的堆叠被选择用于可视化(图3,框8)。

图3

REViewer可视化方法概述。

这种算法是基于这样一种思想:如果给定的基因座被很好地测序,并且每个组成重复的基因分型都是正确的,那么就有可能分配reads以实现每个单体型的均匀覆盖。(尽管许多reads可能不能被分配到正确的单倍型来源,特别是在重复是纯合的情况下,产生的单倍型是相同的。)相反,如果一次重复的大小被显著地高估或低估,则没有读值分配将导致均匀的堆积,使基因分型错误很容易被注意到。

精确的基因型重复显示

在本文的其余部分,我们将回顾由REViewer从real中生成的read pile的示例4.和模拟数据。我们从对应于精确基因型的堆积开始,这些基因型得到了阅读的充分支持。

重复一步

考虑阅读堆积ATXN3重复其等位基因短于图4所示的读取长度。这种重复是基因型20/20(每个等位基因上有20个基序副本)。这个图的每个面板对应一个单倍型(单倍型序列显示在最上面一行)。单倍型序列和reads根据它们与重复序列(橙色)或周围侧翼序列(蓝色)的重叠而上色。显示读取中的所有不匹配基。

堆积图显示,基因型调用得到了读码的很好支持,因为每个等位基因都受到许多跨读码(整个重复序列的读码)的支持,并且没有不同比对的读码。(不一致比对意味着读取与两种单倍型中的任何一种不一致——例如,具有40个重复的读取与基因型20/20不一致。)重复序列中有明显的中断证据。例如,倒数第三个基序中的胞嘧啶突变为胸腺嘧啶。

图4

一堆的阅读ATXN3重复基因型20/20。序列中断对应于大多数读取对齐中存在不匹配的位置。

扩大重复

图5描述了DMPK用扩展的等位基因重复。扩展的重复被读取很好地支持,因为REViewer能够在整个重复中分布读取,以在整个单倍型中实现类似的读取覆盖。(重要的是要记住,在repeat中读取的对齐位置是随机选择的。)短等位基因也得到了大量的扩展阅读的支持。用较淡的颜色描述的排列对应于可以分配给任何一个等位基因的读数。

图5

一个阅读堆DMPK在一个等位基因上扩展重复。

有两个相邻重复的轨迹

为了演示一个更复杂的REViewer应用程序,我们将其应用于计画重复区域包含两个相邻的重复:致病的CAG重复和附近的“讨厌的”CCG重复。前者的基因型为14/17,后者的基因型为9/12。因此,图6所示的一个单倍型分别包含大小为14和12的重复序列,而另一个单倍型包含大小为17和9的重复序列。很明显,这两种单倍型都得到了reads的支持。此外,堆积图显示,在两个单倍型的CCG重复基序的第二个副本中都有一个G到a突变。

图6

一堆的阅读计画包含两个邻近重复序列的位点。

不准确的基因型重复的可视化

本节描述了与不准确的基因型重复对应的读叠加的例子。我们使用模拟数据来说明假阳性和假阴性重复扩展调用。

被高估的重复规模

为了给出一个与假阳性重复扩展调用相对应的堆积示例,我们模拟了从C9ORF72纯合子基因型为10/10的重复区。然后我们加入一个近乎完美的C均聚物读数,该读数与C9ORF72重复序列并运行审查员强制重复基因型为10/30而不是10/10。图7描述了相应的读堆。正如预期的那样,堆积图显示,除了一个重复时间较长的单倍型上的读数外,其他所有的读数都与较短的单倍型一致(这些读数用较淡的颜色表示),并且只有一个排列不良的读数支持扩展。实际上,这可能被认为是由单个低质量读取引起的误报呼叫。

图7

错误地称为扩展C9ORF72重复。

被低估的重复大小

为了生成一个假阴性重复扩展调用的示例,我们模拟了FMR1重复基因型15/55,然后强制审查员生成与(不正确的)基因型15/30对应的读取堆积。图8显示了由此产生的堆积。请注意,为了协调大小为55的重复序列中的读数,评审员将比对末端剪裁为最长等位基因的大小。读取的实际剪裁部分显示为灰色段,显示的是碱基序列。由于有过多的读取与30个基序的重复重叠,并且由于所有这些读取都由重复序列组成,我们得出结论,重复的大小可能被低估。

图8

FMR1与低估最长等位基因大小的基因型相对应的重复堆积。

局限性

REViewer是评估测序数据与ExpansionHunter产生的重复基因型一致性的工具。它提供了一种机制,用于审查临床环境中支持基因型调用的证据,并确定有问题的角落病例,以推动未来的发展。评审员生成的读取堆积图可能包含不准确信息:重复可能没有正确分阶段(例如,当重复彼此相距很远时),与两个单倍型一致的读取对通常会分配给不正确的单倍型。此外,当前版本的REViewer可视化了跨度不超过片段长度的重复(较长的重复在片段长度处被限制)。

结论

我们开发了一种工具,用于可视化支持扩增猎人确定的重复基因型的reads比对。为了显示全长比对,REViewer通过对位于彼此相近位置的所有重复序列进行基因分型来确定目标位点的单倍型序列。REViewer在单倍型之间分配读,同时随机选择具有多个可能来源的读的位置,以便读尽可能均匀地分布在单倍型之间和单倍型内部。虽然许多单独读取的位置可能是不正确的,但该图使对给定的基因型调用进行有效的视觉评估成为可能。我们还证明,可以使用这些图来检测重复序列中的中断和重复序列周围的立即中断。研究工作正在进行中,以开发和验证调用中断序列的能力,它们的存在可能有临床意义。

最后,我们想要注意的是,REViewer可以用于可视化短索引(因为ExpansionHunter对这种变体类型有基本的支持),并且原则上可以与其他变体类型一起工作。如果您在使用REViewer时遇到任何问题或对改进程序有任何建议,请不要犹豫与我们联系(Egor)edolzhenko@illumina.com和迈克meberle@illumina.com).

参考
  1. 范浩,褚建勇。短串联重复突变的简要综述。基因组蛋白质组生物信息学。2007年2月,5(1):7 - 14。doi: 10.1016 / s1672 - 0229(07) 60009 - 6。
  2. 王志强,王志强,王志强,等。短串联重复序列对人类基因表达变异的丰富贡献。Nat麝猫。2016年1月,48(1):22-9。
  3. 汉南区AJ。串联重复基因介导健康和疾病的遗传可塑性。Nat牧师麝猫。2018年5月,19(5):286 - 298。
  4. 杜振科等。从无pcr全基因组序列数据中检测长重复扩增。基因组研究。2017年11月,27(11):1895 - 1903。
  5. Dolzhenko E、Deshpande V、Schlesinger F等。ExpansionHunter:一种基于序列图的工具,用于分析短串联重复区域的变化。生物信息学。2019年11月1日,35(22):4754 - 4756。
  6. Dolzhenko E、Bennett MF、Richmond PA等。ExpansionHunter Denovo:一种计算方法,用于在短读序列数据中定位已知和新的重复扩展。基因组医学杂志。2020年4月28日,21(1):102。
  7. 克劳斯-佩罗塔扩张、镶嵌和阻断:脊髓小脑共济失调1型CAG重复突变的机制。小脑共济失调。2016年11月22日,3分。
  8. 等。不间断CAG的长度与多聚谷氨酰胺大小无关,导致躯体不稳定性增加,加速亨廷顿病的发病。我是Hum Genet。2019年6月6日,104(6):1116 - 1126。