Linux：生信 - 《Linux》

bget
数据格式

bget

下载OA文献和附件的命令行工具
下载： wget -c https://github.com/clindet/bget/releases/download/v0.3.2/bget_0.3.2_Linux_64-bit.tar.gz
使用： bget doi 10.1038/s41467-017-00050-4 —suppl

数据格式

fasta

1）一种基于文本用于表示核酸序列或多肽序列的格式
2）核酸或氨基酸均以单个字母来表示，且允许在序列前添加序列名及注释
3）包含id行和序列行两部分
4）id行以“>”开头，有时候会包含注释信息
5）序列行一个字母表示一个碱基（A/T/C/G/N）/氨基酸（20种常见氨基酸），直到下一个id行为止

fastq

1）一种存储了生物序列以及相应的质量评价的文本格式
2）illumina测序原始序列的格式
3）id行，以@开头，记录必要信息
4）序列行
5）附加信息行，以+开头
6）碱基质量行，根据ASCII表,用一个字符来表示一个碱基质量的好坏（PHRED值）

gff（General Feature Format）

1）记录序列中转录起始位点、基因、外显子、内含子等组成元件在染色体中的位置信息
2）现在用得比较多的是第3版/gff3
3）三级嵌套结构

内容
1）seqid：染色体序列的id
2）source：注释的来源，一般指明产生此gff3文件的软件或方法。如果未知，则用点（.）代替。
3）type：类型，描述这一行记录的内容（例如gene，mRNA，exon，UTR等）
4）start：起始位置，从1开始计数（区别于bed文件从0开始计数）。
5）end：终止位置。
6）score：得分，注释信息可能性说明，可以是序列相似性比对时的E-values值或者基因预测时的P-values值。”.”表示为空。
7）strand：“＋”表示正链，“－”表示负链，“.”表示不需要指定正负链，“?” 表示未知.
8）phase：步进。仅对编码蛋白质的CDS有效，本列指定下一个密码子开始的位置。可以是0、1或2，表示到达下一个密码子需要跳过碱基个数。
9）attributes：属性。一个包含众多属性的列表，格式为“标签＝值”（tag=value），不同属性之间以分号相隔。

详细了解：http://asia.ensembl.org/info/website/upload/gff3.html

gtf（Gene transfer format）

现在用得比较多的是第2版/gtf2
可以用cufflinks里的gffread命令互相转换格式

内容
1）seqname：序列的名字。通常格式染色体ID或是contig ID。
2）source：注释的来源。通常是预测软件名或是公共数据库。
3）feature ：基因结构。根据所使用软件不同，feature types必须注明（例如gene，mRNA，exon，UTR等）。
CDS，start_codon，stop_codon是一定要含有的类型。
4）start：起始位置，从1开始计数。
5）end：终止位置。
6）score ：这一列的值表示对该类型存在性和其坐标的可信度，不是必须的，可以用点“.”代替。
7）strand：链的正向与负向，分别用加号+和减号-表示。
8）frame：密码子偏移，可以是0、1或2。
9）attributes：必须要有以下两个值
gene_id value：表示转录本在基因组上的基因座的唯一的ID。gene_id与value值用空格分开，如果值为空，则表示没有对应的基因。
transcript_id value：预测的转录本的唯一ID。transcript_id与value值用空格分开，空表示没有转录本。

详细了解：https://mblab.wustl.edu/GTF22.html