FASTQ文件解释

06/26/19


Illumina测序技术使用通过合成(SBS)化学进行聚类生成和测序根据测序平台,在流动细胞上对数百万或数十亿簇进行测序。在SBS化学过程中,由仪器上的实时分析(Real-Time Analysis, RTA)软件为每个测序周期对每个集群进行基调用并存储。RTA以单个基调用(或BCL)文件的形式存储基调用数据。排序完成后,必须将BCL文件中的基本调用转换为序列数据。这个过程被称为BCL到FASTQ的转换。

FASTQ文件是一个文本文件,它包含来自流经流单元的筛选器的集群的序列数据(有关流经筛选器的集群的更多信息,请参阅本公告的“附加信息”部分)。如果样本多路复用, FASTQ文件生成的第一步是多路分解.解复用将簇分配给一个样本,基于簇的指数序列(s)。解复用后,组装的序列被写入每个样本的FASTQ文件。如果样本不复用,则不发生解复用步骤,并且对于每个流单元道,所有簇都分配给单个样本。

对于单读运行,为每个流单元通道的每个样本创建一个Read 1 (R1) FASTQ文件。对于一个对端运行,为每个通道的每个样本创建一个R1和一个Read 2 (R2) FASTQ文件。FASTQ文件被压缩并使用扩展名创建* .fastq.gz。

FASTQ文件是什么样的?

对于通过过滤器的每个集群,一个单独的序列被写到相应的样本的R1 FASTQ文件中,并且,对于成对端运行,一个单独的序列也被写到样本的R2 FASTQ文件中。FASTQ文件中的每个条目由4行组成:

  1. 一个序列标识符,包含有关排序运行和集群的信息。这一行的确切内容根据使用的BCL到FASTQ转换软件而不同。
  2. 序列(基调用;A, C, T, G和N)。
  3. 分隔符,即一个简单的加号。
  4. 基本呼叫质量分数.这些是验证+33编码,使用ASCII.字符表示数值质量分数。

下面是一个R1 FASTQ文件中的单个条目的例子:

更多关于FASTQ格式的详细信息可以找到在这里

如何查看FASTQ文件

FASTQ文件可以包含多达数百万个条目,大小可以是几兆或几兆字节,这常常使它们太大,无法在普通的文本编辑器中打开。通常,没有必要查看FASTQ文件,因为它们是中间输出文件,用于执行下游分析的工具的输入,比如对引用的对齐或从头组装。

如果您需要查看FASTQ文件以排除故障或出于好奇,那么您将需要一个能够处理非常大的文件的文本编辑器,或者访问可以通过命令行查看大文件的Unix或Linux系统。

如何生成FASTQ文件

FASTQ文件生成是所有分析工作流使用的第一步MiSeq记者MiSeq和本地运行管理器MiniSeq。当分析完成时,FASTQ文件位于MiSeq上的<运行文件夹>\数据\强度\ baseccalls和mineq上的<输出文件夹>\Alignment_#\<子文件夹>\ FASTQ。

对于上传的所有运行BaseSpace序列枢纽, FASTQ文件在运行完成上传后自动生成,FASTQ文件被用作各种输入BaseSpace Sequence Hub分析应用.在Basespace序列集线器上,您可以在与运行相关联的项目中找到您的FASTQ文件。

bcl2fastq转换软件可用于从所有当前Illumina测序系统上生成的数据生成FASTQ文件。

有关在FASTQ文件生成期间可以应用的不同设置的信息,请参阅下面的软件用户指南。

MiSeq记者

本地运行管理器

bcl2fastq

额外的信息

的第1.5.8节中可以找到集群通过过滤器的描述和要求MiSeq:成像和基础呼叫在线培训课程。

2声道SBS技术有关基本呼叫Novaseq,NextSeq和MiniSeQ系统的更多信息。

Illumina测序技术有关Miseq和Hiseq系统的基本呼叫的更多信息。