介绍
重复序列组成的相对较短的DNA片段,称为串联重复序列(TRs),发生在整个基因组(例如,图1)。TR变异率可以在10到1000倍其他基因组区域使TRs大贡献者1人类的遗传变异。TRs主要变异通过“滑移”,两代人之间重复增加或减少的数量。越来越多的证据表明,TRs基本细胞过程中发挥作用2、3和大扩张的串联重复序列与多种神经系统疾病包括肌萎缩性脊髓侧索硬化症(ALS),脆性X综合征和各种形式的共济失调。
测序一个区域包含TR产生的一系列阅读部分或完全重叠的重复序列(图2)。通过比对这些拼凑到一起读我们可以确定每个单体型上重复的长度。我们的团队为目标开发了几种方法4、5和全基因组6TR分析。在这里,我们专注于ExpansionHunter4、5的方法,有针对性的分析区域包含一个或多个相邻的TRs可以估计大小的重复比读取长度短和长。
TR基因分型是一个非常困难的问题,即使是最好的方法可以偶尔打错误的基因型电话。由于这个原因,重要的是有强大的可视化方法检查校准用于基因型重复读取的问题。此外,这种可视化方法可以检测到重复图案的变化(例如,中断),可以有临床意义上的影响7、8。标准数据可视化管道通常限于显示读取参考基因组的比对,因此不适用于重复扩大相对于参考或重复等位基因不同的长度。为了解决这些问题,我们开发了重复扩张查看器(审核人)——一种图形可视化的工具由ExpansionHunter重新读取输出。审稿人决定单体型序列逐步相邻重复,然后分发阅读比对这些单。由此产生的静态图像可以直观地评价某一基因型的准确性打电话确定如果重复序列包含任何中断。
可视化的方式读入串联重复区域
评论家是为了显示读取的方式生成的ExpansionHunter(图3中,框1 - 3)。这些校准得到目标区域中重新读取原始编码序列图对应的一个或多个重复坐落在那里5。评论家然后使用重复基因型结构假定的单体型序列由ExpansionHunter然后选择一双单读一致性最高的排列(图3中,框4 - 6)。(这一步是跳过重复单倍体染色体上)。接下来,审稿人决定一组可能的对齐位置为每个读每单体型。例如,一对读原始旁侧序列内共享的两个单只有一个对齐的位置在每个单体型(图3中,框7),而一双读的伴侣都是由重复序列有多个可能的起源与足够长的重复单(图3中,框7 b)。生成一个读连环相撞,评论家随机选择一个对齐的位置为每个读对。这一步是重复指定次数的默认(10000)来生成多个限速。最多的连环相撞甚至选择覆盖每一个单体型的可视化(图3中,盒8)。
这个算法是基于这个想法,如果一个给定的轨迹是测序,每个组成部分重复正确的基因,然后可以将读取实现覆盖每一个单体型。(尽管许多读取可能不会分配给正确的单体型的起源,特别是在情况下重复是纯合的,和由此产生的单是相同的)。相反,如果重复的大小显著高估或低估,甚至没有赋值的读取将导致一个连环相撞的基因分型错误容易被注意到。
的可视化精确重复的基因
本文的其余部分,我们将审查的例子从实际读取限速制度由评论家4和模拟数据。我们从限速对应准确读取的支持的基因型。
一个简短的重复
考虑一个读连环相撞ATXN3重复的等位基因比读短长度在图4所示。这种重复基因分型20/20(20主题副本在每个等位基因)。每个面板的图对应一个单体型(第一行所示的单体型序列)。单体型序列和读取颜色根据他们的重叠和重复(橙色)或周围的旁侧序列(蓝色)。所有的错配碱基读取。
堆积图表明,基因型调用读取因为每个支持的等位基因是由许多横跨读取(跨度完整的重复读取),因为没有读不符比对。(一个有差异的调整意味着读也不符合两个单——例如,一个读40重复将符合基因型20/20。)有明确的证据重复序列的中断。例如,胞嘧啶在第三主题突变成胸腺嘧啶。
扩大重复
图5描述了DMPK重复展开的等位基因。扩大重复读取的支持,因为评论家能够分配读取整个重复实现类似阅读覆盖整个单体型。(重要的是要记住,在重复读取的对齐位置是随机抽取的。)短等位基因也支持大量的跨越。平面图中描述较为暗淡的颜色对应于读取,可以分配给等位基因。
两个相邻重复的轨迹
评论家在展示一个更复杂的应用程序,我们应用它计画重复区域包含两个相邻重复:致病性CAG重复和附近的“公害”20重复。前重复这些14/17,后者重复基因分型是9/12。之一,因此在图6所示的单分别包含重复14码和12,另一单体型包含重复的尺寸17和9。很明显,两个单都支持的读取。此外,堆积图显示有一个G的突变第二份20单重复图案。
基因重复是可视化的不准确
本节描述的例子看限速基因重复是对应的不准确。我们使用模拟数据来说明两种假阳性和假阴性的重复扩张调用。
一个高估了重复大小
给一个连环相撞的例子对应一个假阳性重复扩张,我们模拟读取的C9ORF72重复地区纯合基因型的10/10。然后我们停在一个近乎完美的C均聚物读有点密切的相似之处C9ORF72重复序列,跑评论家强迫重复基因型是10/30,而不是10/10。图7描述了相应的阅读连环相撞。正如预期的那样,读的连环相撞表明,除了一个放在不再重复的单体型也符合短单体型(这些读取微弱中描述的颜色),只有一个不一致读支持扩张。在实践中这可以被认为是一个可能造成假阳性调用一个低质量的阅读。
一个低估了重复大小
产生假阴性重复扩张的一个例子,我们模拟一个FMR1重复基因型15/55,然后迫使评论家生成一个读连环相撞(错误的)基因型对应的15/30。图8显示了生成的连环相撞。注意,为了调和的重复读取原始尺寸55,审查员剪的两端对齐,最长的等位基因的大小。实际读取的省略部分显示为灰色部分与基序列。因为过度的读取重叠重复30图案,因为所有这些读取包含重复序列,我们得出这样的结论:重复的大小可能是低估了。
限制
评论家是评估的工具的一致性与重复基因型由ExpansionHunter测序数据。它提供了一个审查机制的证据支持一个基因型在临床设置和确定问题问题未来的发展。评论家所产生的读连环相撞的情节可能包含不准确:重复可能不是阶段性正确(例如,当重复距离彼此很远)和阅读对符合两个单通常会被分配到不正确的单体型。另外,当前版本的评论家可视化重复的跨度不超过片段长度(不再重复片段长度限制)。
结论
我们开发了一个可视化的工具读取的方式支持重复基因型由ExpansionHunter决定。为了显示完整的校准,审稿人决定单体型序列的目标轨迹逐步基因型的重复位于靠近对方。评论家之间分配读取单而随机选择的位置读取多个可能的起源,以便读取之间都尽可能均匀地分散在单。虽然许多个人的位置读取可能是不正确的,情节可以执行有效的视觉评估给定基因型的电话。我们还证明,可以使用这些情节序列中的重复序列检测的干扰,周围立即重复。工作正在进行开发和验证能力调用中断序列,它们的存在可能有临床意义。
最后,我们要注意,评论者可以用来可视化短indels(因为ExpansionHunter有基本的支持这种变体类型),可以与其他变体类型工作原则。如果你使用评论家时遇到任何问题,或者有建议改善项目,请不要犹豫与我们联系(Egoredolzhenko@illumina.com和迈克meberle@illumina.com)。
外部链接
- ExpansionHunter:https://github.com/Illumina/ExpansionHunter
- 审核人:https://github.com/Illumina/REViewer
引用
- 风扇H,楚司法院。简要回顾短串联重复序列突变。基因组蛋白质组生物信息学。2007年2月,5 (1):7 - 14。doi: 10.1016 / s1672 - 0229 (07) 60009 - 6。
- Gymrek M, Willems T, Guilmatre,等。丰富的贡献短串联重复序列在人类基因表达变化。Nat麝猫。2016年1月,48 (1):22-9。
- 汉南区AJ。串联重复序列调停遗传可塑性在健康和疾病。Nat牧师麝猫。2018年5月,19 (5):286 - 298。
- 肖RJ Dolzhenko E, van Vugt JJFA,等。检测PCR-free全基因组序列数据的长期重复扩张。基因组Res。2017年11月,27 (11):1895 - 1903。
- Dolzhenko E, Deshpande V,施莱辛格F, et al。ExpansionHunter: sequence-graph-based工具分析短串联重复序列的变化区域。生物信息学。2019年11月1日,35 (22):4754 - 4756。
- 班纳特Dolzhenko E, MF,里士满PA,等。ExpansionHunter从头:已知一个定位的计算方法和小说在短内容重复扩张测序数据。基因组医学杂志。2020年4月28日,21 (1):102。
- Kraus-Perrotta C, Lagalwar年代。扩张,而忽略中断:CAG重复突变机制1型脊髓小脑的共济失调。小脑共济失调。2016年11月22日,3分。
- 柯林斯赖特创业板,是的,凯C, et al。受到多麸醯胺酸不间断CAG的长度,独立的大小,导致体不稳定性增加,加速亨廷顿疾病的发作。J哼麝猫。2019年6月6日,104 (6):1116 - 1126。