Linux4.2格式化文本工具(awk).docxVIP

下载本文档

5
0
约1.23万字
约 26页
2016-08-24 发布于河南
举报
版权申诉

Linux4.2格式化文本工具(awk).docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Linux4.2格式化文本工具(awk)

格式化文本数据抽取工具awk该工具主要是从具有一定格式的文本中抽取数据、然后以另一种方式展现。可以理解成数据库中的“视图”【命令格式】awk [-F分隔符] command input-filename??? 使用-F指定被读取文件中的格式分隔符，默认是空格。awk -f script-filename input-filename??? 使用-f调用已经写好的脚本文件，去处理被读取文件。【处理原理】以/etc/passwd文件为例，其内容格式如下：at:x:25:25:Batch jobs daemon:/var/spool/atjobs:/bin/bashawk -F: {print username: $1} /etc/passwd当passwd文件被awk命令读入后，每行被分隔符（本例中是:）分成若干个域，从第一个域（可以理解成第一列）开始，被记为$1, $2...（如果要表示整条记录，则使用$0）；接着，awk按照{}里面的动作指令对每个域进行处理，直到处理完所有记录为止。简单举例：使用awk输出包含文本头、尾的“视图”信息，这里用到了BEGIN和END（在编辑语句开始执行前后，输出指定的文本头尾信息）假设存在以下文件：awk BEGIN{print Studen ID\tName\n---------------------} {print $1\t$2}END{print ---------END--------} student2.2 | tee student2.2_awk便得到了如下格式的新文件：【正则表达、元字符、运算符和关系运算符】举例：1. 使用/28/匹配所有28开头的行：awk /28/{print $0} student2.22. 先匹配所有28开头的行，然后打印这些行的1、2、3列：awk /28/{print $1\t$2\t$3} student2.23. 输出第二列值为Liulu的行：awk $2==Liulu{print $0} student2.24. 输出第二列值不为Liulu的行：awk $2!=Liulu{print $0} student2.2或者：awk $2 !~/[Ll]iulu/{print $0} student2.25. 输出第一列以3、4结尾的行：awk $1 ~/^........[3,4]/{print $0} student2.2或者：awk $1 ~/^........[3-4]/{print $0} student2.26. 输出第二列值为Xuli或Heli的行：awk $2 ~/(Xuli|Heli)/{print $0} student2.2或者：awk $2 ~/(Xuli|Heli)/ student2.2*输出所有行的动作{print $0}，可以省略，如上。7. 加入算术运算符、并将计算结果生成新的一列：假设存在如下list.txt文件：计算每一行第四、五、六列的总和和平均值，并生成第七、八列；最后将新的文本内容保存到list_new.txt中：awk {print $1\t$2\t$3\t$4\t$5\t$3+$4+$5\t($3+$4+$5)/3} list.txt | tee list_new.txt8. 加入逻辑运算符实现更复杂的匹配操作：针对上述新生成的list_new.txt文件，查找第二列值包含aa、且第七列值大于150的行：awk ($2 ~/^aa*/ $6150){print $0} list_new.txt*总之，使用awk时，一定要将执行编辑的语句放入单引号内，将多个模式和条件放在小括号中，函数和流控制语句放入大括号内，避免产生错误。【在awk命令中使用内部变量】awk的变量分两种，内部变量（Built-in Variables）和自定义变量。内部变量通常用于控制输出和保存awk当前工作状态等信息，在引用这些变量时通常不需使用$符号。1. 关于awk全部的内部变量说明，可以使用man awk查看，在Built-in Variables部分有详细说明（本人使用awk版本为GNU Awk 3.1.8）。下面列举一些常用的FILENAME：保存被读取文件的文件名NF：保存当前正在处理记录的域个数（列数），即使只读取本行记录的某几个域，这个值也会把这行中所有符合分隔符条件的列数记录下来NR：读取到的行数，当有多个输入文件、读取新文件时，不会被重置FNR：保存读取当前文件的记录数（行数），当有多个输入文件、读取新文件时，awk会重置这个变量OFS：设置输出记录的分割符，默认为空格FS：设置输入文件中的字段是以何种分隔符分割ORS：The output record separator, by default a newlin