下一代测序(NGS)覆盖范围描述了与已知参考碱基对齐或“覆盖”的平均读取数量。测序覆盖水平通常决定了在特定的碱基位置是否能以一定的可信度发现变异。
测序覆盖要求因应用而异,如下所述。在更高的覆盖级别上,每个碱基都被更多的对齐序列读取覆盖,因此碱基调用的可信度更高。
研究人员通常根据他们使用的方法,以及参考基因组大小、基因表达水平、兴趣的具体应用、已发表的文献和科学界的最佳实践等其他因素来确定必要的NGS覆盖水平。这里列出了一些常用方法的测序覆盖建议示例。
测序法 | 推荐覆盖范围 |
---|---|
全基因组测序(WGS) | 人体WGS为30× 50×(根据应用和统计模型) |
Whole-exome测序 | 100× |
RNA序列 | 通常是根据要采样的数百万个读的数量来计算的。检测很少表达的基因通常需要增加覆盖深度。 |
ChIP-Seq | 100× |
覆盖直方图通常用于描述整个数据集的序列覆盖范围和均匀性。它们通过显示不同深度的映射测序读取所覆盖的参考碱基数量来说明总体覆盖率分布。映射读取深度是指在给定参考碱基位置处测序和对齐的碱基总数(注意,“映射”和“对齐”在测序社区中互换使用)。
在序列覆盖直方图中,读取深度被分类并显示在x轴上,而占用每个读取深度库的参考基的总数显示在y轴上。这些也可以写成参考基数的百分比。
以下指标通常用于评估NGS覆盖率:
IQR是直方图第75百分位和第25百分位之间的序列覆盖率差异。该值是统计可变性的度量,反映了整个数据集覆盖范围的不均匀性。
高IQR表示基因组覆盖率的高变化,而低IQR则反映了更均匀的序列覆盖率。在上面的示例直方图中,较低的IQR表示左侧的直方图比右侧的直方图具有更好的序列覆盖均匀性。
平均映射读取深度(或平均读取深度)是每个参考基准位置的映射读取深度之和除以参考基准中已知基准的数量。
平均读取深度度量表示在给定参考基准位置上可能对齐的平均读取次数。
这是仪器产生的序列数据总量(预比对),除以参考基因组大小。虽然原始读取深度通常是由测序仪器供应商提供的一种规范,但它没有考虑到校准过程的效率。
如果在对齐过程中丢弃了大部分原始序列读取,则对齐后映射的读取深度可能明显小于原始读取深度。