文本操作
seq 命令
替换文件中的所有匹配项:sed -i ‘s/原字符串/替换字符串/g’ filename
删除重复行
# test.txt 去掉重复行,生成test2.txt;未指定输出的文件,默认输出到终端
sort -n test.txt | uniq > test2.txt
文件和文件夹操作
文件解压缩
#解压.tar.gz压缩包
#解压到当前目录
tar -zxf XXX.tar.gz
#解压到指定目录
tar -zxf XXX.tar.gz -C 解压位置
分割文件
# split命令
# 指定行数分割,
生物信息文件操作
fasta文件
# 计算fasta文件中的序列数
# 通过搜索>的数量
grep -c '^>' myFasta.fasta
1397492
#seqkit统计提取,速度也是很快的
seqkit stats t.fa -T | grep -v file | cut -f 4
1397492
# 统计 1-100bp 范围长的序列数
cat t.fa | seqkit seq -m 1 -M 100 | seqkit stat -T | grep -v file | cut -f 4