一、关于Fastq
FASTQ是基于文本的,保存生物序列(通常是核酸序列)和其测序质量信息的标准格式。其序列以及质量信息都是使用一个ASCII字符标示,最初由Sanger开发,目的是将FASTA序列与质量数据放到一起,目前已经成为高通量测序结果的事实标准。
二、Fastq的格式
例如
fastq的质量值:
三、关于Fasta
Fasta格式也称为Pearson格式,是一种基于文本用于表示核苷酸序列或氨基酸序列的格式。在这种格式中碱基对或氨基酸用单个字母来编码,且允许在序列前添加序列名及注释。
四、Fasta格式
Fasta格式首先以大于号“>”开头,接着是序列的标识符;换行后是序列的描述信息。换行后是序列信息,文件每行的字母一般不应超过80个字符。序列中允许存在空格,换行,空行,直到下一个大于号或文件结束,表示该序列的结束。 fasta格式是一种非常简单的储存序列的格式,可以储存核酸序列(DNA/RNA)也可以储存蛋白质的氨基酸序列(Amino Acid sequence,简称AA序列),主要分成2个部分。1是以“>”为开始的一行主要储存的是序列的描述信息;剩下的是序列部分,中间,前后都可以有空格。序列部分按照官方文档的说明应该是小于120就行,一般70到80左右。其实实际操作中,程序处理的时候都是自动去掉空格和换行符,把序列读成1行再处理,所以,我也干过把整条人类染色体都放到一行的233举动,这么算下来,一行可以有240*10E6这么长!~~~
五、人类参考基因组Fasta文件的组成部分说明
本文整理于: 1、 2、