下一代测序(NGS)覆盖范围描述了与已知参考碱基对齐或“覆盖”的平均读取数量。测序覆盖水平通常决定了在特定的碱基位置是否能以一定的可信度发现变异。
测序覆盖要求因应用而异,如下所述。在更高级别的覆盖中,每个基被更多的对齐序列读取所覆盖,因此基调用可以以更高的置信度进行。
研究人员通常根据他们使用的方法,以及参考基因组大小、基因表达水平、兴趣的具体应用、已发表的文献和科学界的最佳实践等其他因素来确定必要的NGS覆盖水平。这里列出了一些常用方法的测序覆盖建议示例。
测序法 | 推荐的报道 |
---|---|
全基因组测序(WGS) | 人体WGS为30× 50×(根据应用和统计模型) |
Whole-exome测序 | 100× |
RNA序列 | 通常是根据要采样的数百万个读的数量来计算的。检测很少表达的基因通常需要增加覆盖深度。 |
ChIP-Seq | 100× |
覆盖直方图通常用于描述整个数据集的测序覆盖范围和均匀性。它们通过显示不同深度的映射测序reads所覆盖的参考碱基的数量来说明总体覆盖分布。映射读深度是指在给定的参考基位上排序和对齐的碱基总数(注意,“映射”和“对齐”在测序社区中可以互换使用)。
在测序覆盖直方图中,读取深度被送入并显示在X轴上,而占据每个读取深度箱的参考碱基的总数显示在Y轴上。这些也可以写成参考基础的百分比。
以下指标通常用来评估NGS报道:
IQR是直方图中第75和第25个百分位之间的测序覆盖率差异。这个值是统计变异性的度量,反映了整个数据集覆盖的不均匀性。
高IQR表示在整个基因组的覆盖高度变化,而低IQR反映更均匀的序列覆盖。在上面的例子直方图,下部IQR表示在左侧的直方图具有比右侧更好测序覆盖的均匀性。
平均映射读深度(或平均读深度)是每个参考基位置的映射读深度之和,除以参考中已知的基数。
平均读取深度指标表示有多少读取,平均来说,有可能在给定的参考基准位置对齐。
这是由仪器(预取向)产生的序列数据的总量,除以参考基因组大小。虽然RAW读取深度通常是通过测序仪器供应商作为规范来提供,但它没有考虑到对准过程的效率。
如果在对准过程中丢弃大部分原始测序读取,则对准后映射读取深度可以明显小于原始读取深度。