bget
下载OA文献和附件的命令行工具
下载: wget -c https://github.com/clindet/bget/releases/download/v0.3.2/bget_0.3.2_Linux_64-bit.tar.gz
使用: bget doi 10.1038/s41467-017-00050-4 —suppl
数据格式
fasta
1)一种基于文本用于表示核酸序列或多肽序列的格式
2)核酸或氨基酸均以单个字母来表示,且允许在序列前添加序列名及注释
3)包含id行和序列行两部分
4)id行以“>”开头,有时候会包含注释信息
5)序列行一个字母表示一个碱基(A/T/C/G/N)/氨基酸(20种常见氨基酸),直到下一个id行为止
fastq
1)一种存储了生物序列以及相应的质量评价的文本格式
2)illumina测序原始序列的格式
3)id行,以@开头,记录必要信息
4)序列行
5)附加信息行,以+开头
6)碱基质量行,根据ASCII表,用一个字符来表示一个碱基质量的好坏(PHRED值)
gff(General Feature Format)
1)记录序列中转录起始位点、基因、外显子、内含子等组成元件在染色体中的位置信息
2)现在用得比较多的是第3版/gff3
3)三级嵌套结构
内容
1)seqid:染色体序列的id
2)source:注释的来源,一般指明产生此gff3文件的软件或方法。如果未知,则用点(.)代替。
3)type: 类型,描述这一行记录的内容(例如gene,mRNA,exon,UTR等)
4)start:起始位置,从1开始计数(区别于bed文件从0开始计数)。
5)end:终止位置。
6)score:得分,注释信息可能性说明,可以是序列相似性比对时的E-values值或者基因预测时的P-values值。”.”表示为空。
7)strand:“+”表示正链,“-”表示负链,“.”表示不需要指定正负链,“?” 表示未知.
8)phase:步进。仅对编码蛋白质的CDS有效,本列指定下一个密码子开始的位置。可以是0、1或2,表示到达下一个密码子需要跳过碱基个数。
9)attributes:属性。一个包含众多属性的列表,格式为“标签=值”(tag=value),不同属性之间以分号相隔。
详细了解:http://asia.ensembl.org/info/website/upload/gff3.html
gtf(Gene transfer format)
现在用得比较多的是第2版/gtf2
可以用cufflinks里 的gffread命令互相转换格式
内容
1)seqname:序列的名字。通常格式染色体ID或是contig ID。
2)source:注释的来源。通常是预测软件名或是公共数据库。
3)feature :基因结构。根据所使用软件不同,feature types必须注明(例如gene,mRNA,exon,UTR等)。
CDS,start_codon,stop_codon是一定要含有的类型。
4)start:起始位置,从1开始计数。
5)end:终止位置。
6)score :这一列的值表示对该类型存在性和其坐标的可信度,不是必须的,可以用点“.”代替。
7)strand:链的正向与负向,分别用加号+和减号-表示。
8)frame:密码子偏移,可以是0、1或2。
9)attributes:必须要有以下两个值
gene_id value:表示转录本在基因组上的基因座的唯一的ID。gene_id与value值用空格分开,如果值为空,则表示没有对应的基因。
transcript_id value:预测的转录本的唯一ID。transcript_id与value值用空格分开,空表示没有转录本。
