跳转到内容

测序覆盖率

NGS的覆盖范围是什么?

下一代测序(NGS)覆盖范围描述了与已知参考碱基对齐或“覆盖”的平均读取数量。测序覆盖水平通常决定了在特定的碱基位置是否能以一定的可信度发现变异。

测序覆盖要求因应用而异,如下所述。在更高的覆盖级别上,每个碱基都被更多的对齐序列读取覆盖,因此碱基调用的可信度更高。

排序覆盖要求

研究人员通常根据他们使用的方法,以及参考基因组大小、基因表达水平、兴趣的具体应用、已发表的文献和科学界的最佳实践等其他因素来确定必要的NGS覆盖水平。这里列出了一些常用方法的测序覆盖建议示例。

测序法 推荐覆盖范围
全基因组测序(WGS) 人体WGS为30× 50×(根据应用和统计模型)
Whole-exome测序 100×
RNA序列 通常是根据要采样的数百万个读的数量来计算的。检测很少表达的基因通常需要增加覆盖深度。
ChIP-Seq 100×
如何估计和实现您期望的NGS覆盖率水平

如何估计和实现您期望的NGS覆盖率水平

  • 估算测序覆盖范围(PDF):了yobet亚洲解如何估计您的实验所需的覆盖深度,并阅读更多关于测序覆盖的详细背景信息。
  • 排序覆盖率计算器:了解如何计算所需的试剂和测序运行,以实现您的实验所需的测序覆盖。
排序覆盖率和读取长度

选择正确的序列读取长度取决于您的样本类型、应用程序和覆盖率要求。了解如何计算测序运行的正确读取长度,并了解测序覆盖率与读取长度的关系。yobet亚洲

亚博官网人口
排序覆盖率和读取长度

描述NGS覆盖范围和均匀性的直方图

覆盖直方图通常用于描述整个数据集的序列覆盖范围和均匀性。它们通过显示不同深度的映射测序读取所覆盖的参考碱基数量来说明总体覆盖率分布。映射读取深度是指在给定参考碱基位置处测序和对齐的碱基总数(注意,“映射”和“对齐”在测序社区中互换使用)。

在序列覆盖直方图中,读取深度被分类并显示在x轴上,而占用每个读取深度库的参考基的总数显示在y轴上。这些也可以写成参考基数的百分比。

覆盖直方图示例

理想情况下,绘图将采用泊松分布形式,标准偏差较小,如左侧直方图图像所示。这种分布是有效的,前提是读取是随机分布在整个基因组中的,并且在测序过程中检测读取之间真实重叠的能力是恒定的。

然而,由于各种原因,实际的覆盖率直方图可能有很大的分布范围(即读取深度的广泛范围),或者具有非泊松分布,如右边的差排序覆盖率直方图所示。

良好(左)和不良(右)排序覆盖直方图示例

评估下一代测序覆盖率

以下指标通常用于评估NGS覆盖率:

内部四分位范围(差)

IQR是直方图第75百分位和第25百分位之间的序列覆盖率差异。该值是统计可变性的度量,反映了整个数据集覆盖范围的不均匀性。

高IQR表示基因组覆盖率的高变化,而低IQR则反映了更均匀的序列覆盖率。在上面的示例直方图中,较低的IQR表示左侧的直方图比右侧的直方图具有更好的序列覆盖均匀性。

平均(映射)读取深度

平均映射读取深度(或平均读取深度)是每个参考基准位置的映射读取深度之和除以参考基准中已知基准的数量。

平均读取深度度量表示在给定参考基准位置上可能对齐的平均读取次数。

原始读取深度

这是仪器产生的序列数据总量(预比对),除以参考基因组大小。虽然原始读取深度通常是由测序仪器供应商提供的一种规范,但它没有考虑到校准过程的效率。

如果在对齐过程中丢弃了大部分原始序列读取,则对齐后映射的读取深度可能明显小于原始读取深度。