下一代测序(NGS)覆盖率描述了与已知参考碱基对齐或“覆盖”已知参考碱基的平均读取次数。测序覆盖率水平通常决定是否可以在特定的碱基位置以一定程度的置信度进行变异发现。
测序覆盖要求因申请而异,如下所述。在较高的覆盖层面下,每个碱基被更大量的对齐序列读取覆盖,因此可以以更高的置信度进行基础呼叫。
研究人员通常根据他们使用的方法以及其他因素(如参考基因组大小、基因表达水平、感兴趣的具体应用、已发表的文献和科学界的最佳实践)确定必要的NGS覆盖水平。这里列出了一些常用方法的排序覆盖率建议示例。
测序方法 | 推荐覆盖范围 |
---|---|
全基因组测序(WGS) | 人类WGS为30到50倍(取决于应用和统计模型) |
全外显子组测序 | 100× |
RNA测序 | 通常根据要采样的数百万次读取数计算。检测很少表达的基因通常需要增加覆盖深度。 |
芯片序列 | 100× |
覆盖直方图通常用于描述整个数据集的序列覆盖范围和均匀性。它们通过显示不同深度的映射测序读取所覆盖的参考碱基数量来说明总体覆盖率分布。映射读取深度是指在给定参考碱基位置处测序和对齐的碱基总数(注意,“映射”和“对齐”在测序社区中互换使用)。
在序列覆盖率直方图中,读取深度在x轴上分块显示,而占据每个读取深度分块的参考基准总数在y轴上显示。这些数字也可以写为参考基准的百分比。
以下度量标准通常用于评估NGS覆盖范围:
IQR是第75和第25百分位数之间测序覆盖的差异。该值是统计变异性的衡量标准,反映了整个数据集的覆盖范围的不均匀性。
高IQR表示基因组的覆盖范围的高变化,而低IQR反映了更均匀的序列覆盖率。在上面的示例直方图中,较低的IQR表示左侧的直方图具有比右侧的更好的测序覆盖度均匀性。
平均映射的读取深度(或平均读取深度)是每个参考基础位置处的映射读取深度的总和,除以参考文献中的已知基础的数量。
平均读取深度度量指示在给定的参考基础位置上可能对准有多少读取。
这是仪器产生的序列数据总量(预比对),除以参考基因组大小。虽然原始读取深度通常由测序仪器供应商作为规范提供,但它没有考虑比对过程的效率。
如果在对齐过程中丢弃了大部分原始序列读取,则对齐后映射的读取深度可能明显小于原始读取深度。