各种文本工具来查看、分析、统计文本
grep
正则表达式
扩展正则表达式
vim
抽取文本的工具
- 文件内容:less和 cat
- 文件截取:head和tail
- 按列抽取:cut
- 美化字符:tr
- 按关键字抽取:grep
文本查看
- 文件查看命令:
- cat,tac,rev
- cat [OPTION]…[FILE]…
- -E: 显示行结束符$
- -n: 对显示出的每一行进行编号
- -A:显示所有控制符
- -b:非空行编号
- -s:压缩连续的空行成一行
- tac
- rev
分页查看文件内容
- more: 分页查看文件
- more [OPTIONS…] ..
- -d: 显示翻页及退出提示
- more [OPTIONS…] ..
- less:一页一页地查看文件或STDIN输出
- 查看时有用的命令包括:
- /文本搜索 文本
- n/N 跳到下一个或上一个匹配
- less 命令是man命令使用的分页器
- 查看时有用的命令包括:
显示文本前或后行内容
- head [OPTION]…[FILE]…
- -c #: 指定获取前#字节
- -n #: 指定获取前#行
- -#: 指定行数
- tail [OPTION]…[FILE]…
- -c #: 指定获取后#字节
- -n #: 指定获取后#行
- -#:
- -f: 跟踪显示文件fd新追加的内容,常用日志监控相当于 –follow=descriptor
- -F: 跟踪文件名,相当于—follow=name –retry
- tailf 类似tail–f,当文件不增长时并不访问文件
按列抽取文本cut和合并文件paste
- cut [OPTION]…[FILE]…
- -d DELIMITER: 指明分隔符,默认tab
- -f FILEDS:
- #: 第 # 个 字 段#,#[,#]:
- 离散的多个字段,例如1,3,6 #-#:
- 连续的多个字段, 例如1-6
- 混合使用:1-3,7
- -c 按字符切割
- –output-delimiter=STRING指定输出分隔符
cut和paste、tr
- 显示文件或STDIN数据的指定列
- cut -d: -f1 /etc/passwd
- cat /etc/passwd | cut -d: -f7
- cut -c2-5 /usr/share/dict/words
- paste合并两个文件同行号的列到一行
- paste [OPTION]… [FILE]…
- -d 分隔符:指定分隔符,默认用TAB
- -s : 所有行合成一行显示
- paste f1 f2
- paste -s f1 f2
- paste [OPTION]… [FILE]…
- tr [OPTION]… SET1 [SET2]
- -d,删除所有属于第一字符集的字符
-
echo "hello 123 world 456" | tr -d '0-9' hello world
-
- -s,把连续重复的字符以单独一个字符表示
-
echo "thissss is a text linnnnnnne." | tr -s ' sn' this is a text line.
-
- 转换大小写,如:
-
echo "HELLO WORLD" | tr 'A-Z' 'a-z' hello world
-
- -d,删除所有属于第一字符集的字符
分析文本的工具
- 文本数据统计:wc
- 整理文本:sort
- 比较文件:diff和patch
收集文本统计数据wc
- 计数单词总数、行总数、字节总数和字符总数
- 可以对文件或STDIN中的数据运行
wc story.txt
39 237 1901 story.txt
行数 字数 字节数
- 常用选项
- -l只计数行数
- -w 只计数单词总数
- -c 只计数字节总数
- -m 只计数字符总数
- -L 显示文件中最长行的长度
文本排序sort
- 把整理过的文本显示在STDOUT,不改变原始文件
- sort [options] file(s)
- 常用选项
- -r 执行反方向(由上至下)整理
- -R 随机排序
- -n 执行按数字大小整理
- -f 选项忽略(fold)字符串中的字符大小写
- -u 选项(独特,unique)删除输出中的重复行
- -t c 选项使用c做为字段界定符
- -k X 选项按照使用c字符分隔的X列来整理能够使用多次
文本筛重uniq
- uniq命令:从输入中删除前后相接的重复的行
- uniq [OPTION]…[FILE]…
- -c: 显示每行重复出现的次数
- -d: 仅显示重复过的行
- -u: 仅显示不曾重复的行
- 注:连续且完全相同方为重复
- 常和sort命令一起配合使用:
- sort userlist.txt | uniq -c
比较文件
- 比较两个文件之间的区别
- diff foo.conf foo2.conf 5c5
< use_widgets = no
—
> use_widgets = yes
- 注明第5行有区别(改变)
复制对文件改变patch
- diff 命令的输出被保存在一种叫做“补丁”的文件中
- 使用 -u 选项来输出“统一的(unified)”diff格式文件,最适用于补丁文件
- patch 复制在其它文件中进行的改变(要谨慎使用)
- 适用 -b 选项来自动备份改变了的文件
$ diff -u foo.conf foo2.conf > foo.patch
$ patch -b foo.conf foo.patch
练习
- 1、找出ifconfig“网卡名” 命令结果中本机的IPv4地址
- 2、查出分区空间使用率的最大百分比值
- 3、查出用户UID最大值的用户名、UID及shell类型
- 4、查出/tmp的权限,以数字方式显示
- 5、统计当前连接本机的每个远程主机IP的连接数,并按从大到小排序
文本处理三剑客
- grep:文本过滤(模式:pattern)工具
- grep, egrep, fgrep(不支持正则表达式搜索)
- sed:streameditor,文本编辑工具
- awk:Linux上的实现gawk,文本报告生成器
grep
- grep: Global search REgular expression and Print out theline
- 作用:文本搜索工具,根据用户指定的“模式”对目标文本逐行进行匹配检查;打印匹配到的行
- 模式:由正则表达式字符及文本字符所编写的过滤条件
- grep [OPTIONS] PATTERN[FILE…]
- grep root /etc/passwd
- grep “$USER” /etc/passwd
- grep ‘$USER’ /etc/passwd
- grep `whoami` /etc/passwd
grep命令选项
- –color=auto:对匹配到的文本着色显示
- -v:显示不被pattern匹配到的行
- -i: 忽略字符大小写
- -n:显示匹配的行号
- -c: 统计匹配的行数
- -o: 仅显示匹配到的字符串
- -q:静默模式,不输出任何信息
- -A#: after, 后#行
- -B#: before, 前#行
- -C#:context, 前后各#行
- -e:实现多个选项间的逻辑or关系
- grep –e ‘cat ’ -e ‘dog’ file
- -w:匹配整个单词
- -E:使用ERE
- -F:相当于fgrep,不支持正则表达式
正则表达式
- REGEXP:由一类特殊字符及文本字符所编写的模式,其中有些字符(元字符) 不表示字符字面意义,而表示控制或通配的功能
- 程序支持:grep,sed,awk,vim, less,nginx,varnish等
- 分两类:
- 基本正则表达式:BRE
- 扩展正则表达式:ERE
- grep -E, egrep
- 正则表达式引擎:
采用不同算法,检查处理正则表达式的软件模块PCRE(Perl Compatible Regular Expressions)
- 元字符分类:字符匹配、匹配次数、位置锚定、分组
- man 7regex
基本正则表达式元字符
- 字符匹配:
. 匹配任意单个字符
[] 匹配指定范围内的任意单个字符[^] 匹配指定范围外的任意单个字符[:alnum:] 字母和数字
[:alpha:] 代表任何英文大小写字符,亦即 A-Z, a-z
[:lower:] 小写字母 [:upper:] 大写字母
[:blank:] 空白字符(空格和制表符)
[:space:] 水平和垂直的空白字符(比[:blank:]包含的范围广) [:cntrl:] 不可打印的控制字符(退格、删除、警铃…) [:digit:] 十进制数字 [:xdigit:]十六进制数字
[:graph:] 可打印的非空白字符[:print:] 可打印字符
[:punct:] 标点符号
正则表达式
- 匹配次数:用在要指定次数的字符后面,用于指定前面的字符要出现的次数
- * 匹配前面的字符任意次,包括0次
- 贪婪模式:尽可能长的匹配
- .* 任意长度的任意字符
- \? 匹配其前面的字符0或1次
- \+ 匹配其前面的字符至少1次
- \{n\} 匹配前面的字符n次
- \{m,n\} 匹配前面的字符至少m次,至多n次
- \{,n\} 匹配前面的字符至多n次
- \{n,\} 匹配前面的字符至少n次
- * 匹配前面的字符任意次,包括0次
- 位置锚定:定位出现的位置
- ^ 行首锚定,用于模式的最左侧
- $ 行尾锚定,用于模式的最右侧
- ^PATTERN$ 用于模式匹配整行
- ^$ 空行
- ^[[:space:]]*$ 空白行
- \< 或 \b 词首锚定,用于单词模式的左侧
- \> 或 \b 词尾锚定;用于单词模式的右侧
- \<PATTERN\> 匹配整个单词
- 分组:\(\) 将一个或多个字符捆绑在一起,当作一个整体进行处理,如:\(root\)\+
- 分组括号中的模式匹配到的内容会被正则表达式引擎记录于内部的变量中,这些变量的命名方式为: \1, \2, \3, …
- \1 表示从左侧起第一个左括号以及与之匹配右括号之间的模式所匹配到的字符
- 示例:
\(string1\+\(string2\)*\)
\1 :string1\+\(string2\)*
\2 :string2
- 后向引用:引用前面的分组括号中的模式所匹配字符,而非模式本身
- 或者:\|
示例:a\|b: a或b C\|cat: C或cat \(C\|c\)at:Cat或cat
元字符 | 定义 |
^ | 行首 |
$ | 行尾 |
. | 任意单一字符 |
[] | []内任意单一字符 |
[^] | 除[]内任意单一字符 |
* | *前面字符重复不确定次数 |
\+ | \+前面字符重复一次以上不确定次数 |
\? | ?前面字符重复0或1次 |
\ | 转义符 |
.* | 任意长度字符 |
\{n\} | 前面字符重复n次 |
\{n,\} | 前面字符重复n次以上 |
\{m,n\} | 前面字符重复m次和n次之间 |
元字符 | 定义 |
[:alnum:] | 字母和数字 |
[:alpha:] | 代表任何英文大小写字符,亦即A-Z, a-z |
[:lower:] | 小写字母 |
[:upper:] | 大写字母 |
[:blank:] | 水平空白字符(空格和制表符) |
[:space:] | 所有水平和垂直的空白字符(比[:blank:]包含的范围广) |
[:cntrl:] | 不可打印的控制字符(退格、删除、警铃…) |
[:digit:] | 十进制数字 |
[:graph:] | 可打印的非空白字符 |
[:print:] | 可打印字符 |
[:punct:] | 标点符号 |
[:xdigit:] | 十六进制数字 |
练习
- 1、显示/proc/meminfo文件中以大小s开头的行(要求:使用两种方法)
- 2、显示/etc/passwd文件中不以/bin/bash结尾的行
- 3、显示用户rpc默认的shell程序
- 4、找出/etc/passwd中的两位或三位数
- 5、显示CentOS7的/etc/grub2.cfg文件中,至少以一个空白字符开头的且后面有非空白字符的行
- 6、找出“netstat -tan”命令结果中以LISTEN后跟任意多个空白字符结尾的行
- 7、显示CentOS7上所有系统用户的用户名和UID
- 8、添加用户bash、testbash、basher、sh、nologin(其shell为/sbin/nologin),找
出/etc/passwd用户名和shell同名的行
- 9、利用df和grep,取出磁盘各分区利用率,并从大到小排序
egrep及扩展的正则表达式
- egrep = grep-E
- egrep [OPTIONS] PATTERN[FILE…]
- 扩展正则表达式的元字符:
- 字符匹配:
- . 任意单个字符
- [] 指定范围的字符
- [^] 不在指定范围的字符
扩展正则表达式
- 次数匹配:
- *:匹配前面字符任意次
- ?: 0或1次
- +:1次或多次
- {m}:匹配m次
- {m,n}:至少m,至多n次
- 位置锚定:
- ^ :行首
- $ :行尾
- \<, \b :语首
- \>, \b :语尾
- 分组:
- ()
- 后向引用:\1, \2, …
- 或者:
- a|b: a 或 b
- C|cat: C或cat
- (C|c)at:Cat或cat
练习
- 1、显示三个用户root、mage、wang的UID和默认shell
- 2、找出/etc/rc.d/init.d/functions文件中行首为某单词(包括下划线)后面跟一个小括号的行
- 3、使用egrep取出/etc/rc.d/init.d/functions中其基名
- 4、使用egrep取出上面路径的目录名
- 5、统计last命令中以root登录的每个主机IP地址登录次数
- 6、利用扩展正则表达式分别表示0-9、10-99、100-199、200-249、250-255
- 7、显示ifconfig命令结果中所有IPv4地址
- 8、将此字符串:welcometo magedu linux 中的每个字符去重并排序,重复次数多的排到前面
vim简介
- vi:Visual Interface,文本编辑器
- 文本:ASCII,Unicode
- 文本编辑种类:
- 行编辑器: sed
- 全屏编辑器:nano, vi
- vim – Vi Improved
- 其他编辑器:
- gedit 一个简单的图形编辑器
- gvim 一个Vim编辑器的图形版本
打开文件
- # vim [OPTION]…..
- +#: 打开文件后,让光标处于第#行的行首,+默认行尾
- +/PATTERN:打开文件后,直接让光标处于第一个被PATTERN匹配到的行的
- 行首
- –b file 二进制方式打开文件
- –d file1 file2… 比较多个文件
- -m file 只读打开文件
- ex file 或vim –e 直接进入ex模式
- 如果该文件存在,文件被打开并显示内容
- 如果该文件不存在,当编辑后第一次存盘时创建它
vim:一个模式编辑器
- 击键行为是依赖于 vim的 的“模式”
- 三种主要模式:
- 命令(Normal)模式:默认模式,移动光标,剪切/粘贴文本
- 插入(Insert)或编辑模式: 修改文本
- 扩展命令(extendedcommand )模式: 保存,退出等
- Esc键 退出当前模式
- Esc键 Esc键 总是返回到命令模式
vim模式
模式转换
- 命令模式 –> 插入模式
i: insert, 在光标所在处输入I:
在当前光标所在行的行首输入 a: append,
在光标所在处后面输入A:
在当前光标所在行的行尾输入
o: 在当前光标所在行的下方打开一个新行
O:在当前光标所在行的上方打开一个新行
- 插入模式 ——–> 命令模式
- ESC
- 命令模式 ——–> 扩展命令模式
- :
- 扩展命令模式 ——–> 命令模式
- ESC,enter
关闭文件
- 扩展模式:
- :q 退出
- :q! 强制退出,丢弃做出的修改
- :wq 保存退出
- 😡 保存退出
- 命令模式
- ZZ: 保存退出ZQ:不保存退出
扩展模式
- 按“:”进入Ex模式
- 创建一个命令提示符: 处于底部的屏幕左侧
- 命令:
- w 写(存)磁盘文件
- wq 写入并退出
- x 写入并退出
- q 退出
- q! 不存盘退出,即使更改都将丢失
- r filename 读文件内容到当前文件中
- w filename 将当前文件内容写入另一个文件
- !command 执行命令
- r!command 读入命令的输出
命令模式光标跳转
- 字符间跳转:
- h: 左 l: 右 j: 下 k: 上#COMMAND:跳转由#指定的个数的字符
- 单词间跳转:
- w:下一个单词的词首
- e:当前或下一单词的词尾
- b:当前或前一个单词的词首
- #COMMAND:由#指定一次跳转的单词数
- 当前页跳转:
- H:页首 M:页中间行 L:页底
- 行首行尾跳转:
- ^: 跳转至行首的第一个非空白字符
- 0: 跳转至行首
- $: 跳转至行尾
- 行间移动:
- #G、扩展模式:# :跳转至由#指定行
- G:最后一行
- 1G, gg: 第一行
- 句间移动:
- ):下一句 (:上一句
- 段落间移动:
- }:下一段 {:上一段
命令模式光标跳转
- Ctrl+f: 向文件尾部翻一屏
- Ctrl+b:向文件首部翻一屏
- Ctrl+d:向文件尾部翻半屏
- Ctrl+u:向文件首部翻半屏
命令模式翻屏操作
- 字符编辑:
- x: 删除光标处的字符
- #x: 删除光标处起始的#个字符
- xp: 交换光标所在处的字符及其后面字符的位置
- ~:转换大小写
- J:删除当前行后的换行符
- 替换命令(r, replace)
- r: 替换光标所在处的字符
- R:切换成REPLACE模式
命令模式操作
- 删除命令:
- d: 删除命令,可结合光标跳转字符,实现范围删除
- d$: 删除到行尾d^:删除到非空行首d0:删除到行首
- dw:
- de:
- db:
- #COMMAND
- dd:删除光标所在的行#dd:多行删除
- D:从当前光标位置一直删除到行尾,留空行,等同于d$
- 复制命令(y, yank):
- y: 复制,行为相似于d命令
- y$ y0 y^ ye yw yb
- #COMMAND
- yy:复制行
- #yy: 复制多行
- Y:复制整行
- 粘 贴 命 令 (p, paste):
- p:缓冲区存的如果为整行,则粘贴当前光标所在行的下方;否则,则粘贴至当前光标所在处的后面
- P:缓冲区存的如果为整行,则粘贴当前光标所在行的上方;否则,则粘贴至当前光标所在处的前面
- 改变命令(c,change)
- c: 修改后切换成插入模式
- 命令模式 –> 插入模式
- c$ c^ c0 cb ce cw
- #COMMAND
- cc:删除当前行并输入新内容,相当于S
- #cc:
- C:删除当前光标到行尾,并切换成插入模式
命令模式:操作文本
命令模式
- 100iduan [ESC]粘贴“wang”100次
- <start position><command><endposition>
- Command:
- y 复制、d 删除、gU 变大写、gu 变小写
- 例如 0y$ 命令意味着:
- 0 → 先到行头
- y → 从这里开始拷贝
- $ → 拷贝到本行最后一个字符
- ye 从当前位置拷贝到本单词的最后一个字符
扩展命令模式:地址定界
- 地址定界
- :start_pos,end_pos
- # 具体第#行,例如2表示第2行
- #,# 从左侧#表示起始行,到右侧#表示结尾行
- #,+# 从左侧#表示的起始行,加上右侧#表示的行数
- :2,+3 表示2到5行
- . 当前行
- $ 最后一行
- .,$-1 当前行到倒数第二行
- % 全文, 相当于1,$
- /pat1/,/pat2/
- 从第一次被pat1模式匹配到的行开始,一直到第一次被pat2匹配到的行结束
- #,/pat/
- /pat/,$
- 使用方式:后跟一个编辑命令
- d
- y
- w file: 将范围内的行另存至指定文件中
- r file:在指定位置插入指定文件中的所有内容
扩展命令模式:查找
- 查找
- /PATTERN:从当前光标所在处向文件尾部查找
- ?PATTERN:从当前光标所在处向文件首部查找
- n:与命令同方向
- N:与命令反方向
扩展命令模式:查找并替换
- s:在扩展模式下完成查找替换操作
- 格式:s/要查找的内容/替换为的内容/修饰符
- 要查找的内容:可使用模式
- 替换为的内容:不能使用模式,但可以使用\1, \2, …等后向引用符号;还可以使用“&”引用前面查找时查找到的整个内容
- 修饰符:
- i: 忽略大小写
- g: 全局替换;默认情况下,每一行只替换第一次出现
- gc:全局替换,每次替换前询问
- 查找替换中的分隔符/可替换为其它字符,例如
- s@/etc@/var@g
- s#/boot#/#i
练习
- 1、复制/etc/profile至/tmp/目录,用查找替换命令删除/tmp/profile文件中的行首的空白字符
- 2、复制/etc/rc.d/init.d/functions文件至/tmp目录,用查找替换命令为/tmp/functions的每行开头为空白字符的行的行首添加一个#号
命令模式:撤销更改
- u撤销最近的更改
- #u撤销之前多次更改
- U撤消光标落在这行后所有此行的更改
- 按Ctrl- r重做最后的“撤消”更改
- . 重复前一个操作
- 重复前一个操作n次
vim的寄存器
- 有26个命名寄存器和1个无命名寄存器,常存放不同的剪贴版内容,可以不同会话间共享
- 寄存器名称a,b,…,z,格式:“寄存器 放在数字和命令之间
- 如:3″tyy 表示复制3行到t寄存器中
- “tp 表示将t寄存器内容粘贴
- 未指定,将使用无命名寄存器
- 有10个数字寄存器,用0,1,…,9表示,0存放最近复制内容,1存放最近删除内容。当新的文本变更和删除时,1转存到2,2转存到3,以此类推。数字寄存器不能在不
同会话间共享
编辑二进制文件
- 以二进制方式打开文件
- vim –bbinaryfile
- 扩展命令模式下,利用xxd命令转换为可读的十六进制
- :%!xxd
- 编辑二进制文件
- 扩展命令模式下,利用xxd命令转换回二进制
- :%!xxd –r
- 保存退出
可视化模式
- 允许选择的文本块
- v 面向字符
- V 面向行
- ctrl-v 面向块
- 可视化键可用于与移动键结合使用:
- w
- )
- }
- 箭头等
- 突出显示的文字可被删除,复制,变更,过滤,搜索,替换等
多文件模式
- vim FILE1 FILE2 FILE3…
- :next 下一个
- :prev 前一个
- :first 第一个
- :last 最后一个
- :wall 保存所有
- :qall 退出所有
- :wqall
使用多个”窗口”
- 多文件分割
- vim -o|-O FILE1 FILE2 …
- -o: 水平分割
- -O: 垂直分割
- 在窗口间切换:Ctrl+w, Arrow
- 单文件窗口分割:
- Ctrl+w,s: split, 水平分割
- Ctrl+w,v: vertical, 垂直分割
- ctrl+w,q:取消相邻窗口
- ctrl+w,o:取消全部窗口
- :wqall 退出
定制vim的工作特性
- 配置文件:永久有效
- 全局:/etc/vimrc
- 个人:~/.vimrc
- 扩展模式:当前vim进程有效
- (1)行号
- 显示:set number, 简写为set nu
- 取消显示:set nonumber, 简写为set nonu
- (2)忽略字符的大小写
- 启用:set ic
- 不忽略:set noic
- (3)自动缩进
- 启 用 :set ai
- 禁用:set noai
- (4)智能缩进
- 启用:smartindent 简写 set si
- 禁用:set nosi
- (5)高亮搜索
- 启 用 :set hlsearch
- 禁用:set nohlsearch
- (6)语法高亮
- 启用:syntax on
- 禁用:syntax off
- (7)显示Tab和换行符 ^I 和$显示
- 启用:set list
- 禁用:set nolist
- (8)文件格式
- 启用windows格式:set fileformat=dos
- 启用unix格式:set fileformat=unix
- 简写: set ff=dos|unix
- (9)设置文本宽度
- 启用: set textwidth=65 (vim only)
- 禁用: set wrapmargin=15
- (10)设置光标所在行的标识线
- 启用:set cursorline,简写cul
- 禁用:set no cursorline
- (11)复制保留格式
- 启 用 : set paste
- 禁用: set nopaste
了解更多
- Set 帮助
- :helpoption-list
- :set or :setall
- vi/vim内置帮助
- :help
- :help topic
- Use :q to exit help
- vimtutor
练习
- 1、在vim中设置tab缩进为4个字符
- 2、复制/etc/rc.d/init.d/functions文件至/tmp目录,替换/tmp/functions文件中的/etc/sysconfig/init为/var/log
- 3、删除/tmp/functions文件中所有以#开头,且#后面至少有一个空白字符的行的行首的#号
转载请注明:黑夜 » 文本处理工具grep、vim