RHCSA - 3.文本工具 - 《linux》

文本提取工具
基本正则表达式
- 特殊的字符拥有特殊的意义
- 扩展正则表达式

文本提取工具

文件内容：cat, more 和 less
文件摘选：head 和 tail
按关键字提取：grep
提取列或者字段：cut

cat, more, less 查看文本内容

cat ：打印一个或者多个文件到标准输出，对于大文件不适用，-n输出行号
more：浏览文件内容，每次只看一页，按空格翻页
less：浏览文件内容，每次只看一页
常用命令如下：
-/text:搜索 text
-n/N:跳转到next/previous匹配的地方
-v：用文本编辑器打开该文件

head, tail 过滤文本内容

head: 显示文件的起始10行，使用-n选项来指定显示的行
tail：显示文件的最后10行，使用-n选项指定显示的行，使用-f选项将文件末尾追加的内容显示在当前终端。
3.文本工具 - 图1

附：使用grep来更改网页，grep -r string FILE
3.文本工具 - 图2 3.文本工具 - 图3

cut提取列或者字段

cut -d ":" -f1,6 /etc/passwd提取以：作为分隔符的第一列到第六列来输出
3.文本工具 - 图4
使用-c来按照字符来进行提取。
1.用grep按行提取，找到唯一的关键字
2. 用cut来提取列，要判断所取行的规律，找到分隔符

awk工具

-F就是分隔符，用“”引起来，这个工具天生就是以空格作为分隔符。
3.文本工具 - 图5
文本分析工具

文本统计工具：wc

默认用来统计单词数，行数，字节数，和字符数。可以真对一个文件和标准输入
-l 统计行数，-w统计单词数，-c统计字节数
统计输出内容有多少行ls -l FILE | wc -c

文本排序工具：sort

sort [options] file(s)
按照ascll码来进行排序，主要对第一位进行排序
3.文本工具 - 图6
sort可以去掉不连续重复的行，uniq只能去掉连续重复的行。
cat txt | sort | uniq sort|uniq组合排序去重，经常用
uniq -c txt统计txt文本里面重复的次数