文本操作

seq 命令

替换文件中的所有匹配项:sed -i ‘s/原字符串/替换字符串/g’ filename

删除重复行

  1. # test.txt 去掉重复行,生成test2.txt;未指定输出的文件,默认输出到终端
  2. sort -n test.txt | uniq > test2.txt

文件和文件夹操作

文件解压缩

  1. #解压.tar.gz压缩包
  2. #解压到当前目录
  3. tar -zxf XXX.tar.gz
  4. #解压到指定目录
  5. tar -zxf XXX.tar.gz -C 解压位置

分割文件

  1. # split命令
  2. # 指定行数分割,

生物信息文件操作

fasta文件

  1. # 计算fasta文件中的序列数
  2. # 通过搜索>的数量
  3. grep -c '^>' myFasta.fasta
  4. 1397492
  5. #seqkit统计提取,速度也是很快的
  6. seqkit stats t.fa -T | grep -v file | cut -f 4
  7. 1397492
  8. # 统计 1-100bp 范围长的序列数
  9. cat t.fa | seqkit seq -m 1 -M 100 | seqkit stat -T | grep -v file | cut -f 4