Linux4.2格式化文本工具(awk).docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Linux4.2格式化文本工具(awk)

格式化文本数据抽取工具awk该工具主要是从具有一定格式的文本中抽取数据、然后以另一种方式展现。可以理解成数据库中的“视图”【命令格式】awk [-F分隔符] command input-filename??? 使用-F指定被读取文件中的格式分隔符,默认是空格。awk -f script-filename input-filename??? 使用-f调用已经写好的脚本文件,去处理被读取文件。【处理原理】以/etc/passwd文件为例,其内容格式如下:at:x:25:25:Batch jobs daemon:/var/spool/atjobs:/bin/bashawk -F: {print username: $1} /etc/passwd当passwd文件被awk命令读入后,每行被分隔符(本例中是:)分成若干个域,从第一个域(可以理解成第一列)开始,被记为$1, $2...(如果要表示整条记录,则使用$0);接着,awk按照{}里面的动作指令对每个域进行处理,直到处理完所有记录为止。简单举例:使用awk输出包含文本头、尾的“视图”信息,这里用到了BEGIN和END(在编辑语句开始执行前后,输出指定的文本头尾信息)假设存在以下文件:awk BEGIN{print Studen ID\tName\n---------------------} {print $1\t$2}END{print ---------END--------} student2.2 | tee student2.2_awk便得到了如下格式的新文件:【正则表达、元字符、运算符和关系运算符】举例:1. 使用/28/匹配所有28开头的行:awk /28/{print $0} student2.22. 先匹配所有28开头的行,然后打印这些行的1、2、3列:awk /28/{print $1\t$2\t$3} student2.23. 输出第二列值为Liulu的行:awk $2==Liulu{print $0} student2.24. 输出第二列值不为Liulu的行:awk $2!=Liulu{print $0} student2.2或者:awk $2 !~/[Ll]iulu/{print $0} student2.25. 输出第一列以3、4结尾的行:awk $1 ~/^........[3,4]/{print $0} student2.2或者:awk $1 ~/^........[3-4]/{print $0} student2.26. 输出第二列值为Xuli或Heli的行:awk $2 ~/(Xuli|Heli)/{print $0} student2.2或者:awk $2 ~/(Xuli|Heli)/ student2.2*输出所有行的动作{print $0},可以省略,如上。7. 加入算术运算符、并将计算结果生成新的一列:假设存在如下list.txt文件:计算每一行第四、五、六列的总和和平均值,并生成第七、八列;最后将新的文本内容保存到list_new.txt中:awk {print $1\t$2\t$3\t$4\t$5\t$3+$4+$5\t($3+$4+$5)/3} list.txt | tee list_new.txt8. 加入逻辑运算符实现更复杂的匹配操作:针对上述新生成的list_new.txt文件,查找第二列值包含aa、且第七列值大于150的行:awk ($2 ~/^aa*/ $6150){print $0} list_new.txt*总之,使用awk时,一定要将执行编辑的语句放入单引号内,将多个模式和条件放在小括号中,函数和流控制语句放入大括号内,避免产生错误。【在awk命令中使用内部变量】awk的变量分两种,内部变量(Built-in Variables)和自定义变量。内部变量通常用于控制输出和保存awk当前工作状态等信息,在引用这些变量时通常不需使用$符号。1. 关于awk全部的内部变量说明,可以使用man awk查看,在Built-in Variables部分有详细说明(本人使用awk版本为GNU Awk 3.1.8)。下面列举一些常用的FILENAME:保存被读取文件的文件名NF:保存当前正在处理记录的域个数(列数),即使只读取本行记录的某几个域,这个值也会把这行中所有符合分隔符条件的列数记录下来NR:读取到的行数,当有多个输入文件、读取新文件时,不会被重置FNR:保存读取当前文件的记录数(行数),当有多个输入文件、读取新文件时,awk会重置这个变量OFS:设置输出记录的分割符,默认为空格FS:设置输入文件中的字段是以何种分隔符分割ORS:The output record separator, by default a newlin

文档评论(0)

wt60063 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档