re模块sub函数大数据采集技术与应用05课件讲解.pptxVIP

re模块sub函数大数据采集技术与应用05课件讲解.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

re模块sub函数大数据采集技术与应用

1.掌握re模块sub函数功能和使用方法

re模块sub函数Sub函数sub函数将输入的字符串整个扫描,查找并替换字符串中所有符合正则表达式模式的部分。,sub函数的语法格式如下。sub方法常用的参数及其说明如下。re.sub(pattern,repl,string,count=0,flags=0)参数说明pattern接收Pattern实例。表示转换后的正则表达式。无默认值string接收string。表示输入的需要匹配的字符串。无默认值repl用于替换匹配内容的字符串或函数。如果是一个字符串,它将直接替换所有匹配项;如果是一个函数,该函数将对每个匹配项的MatchObject进行操作,并返回替换后的内容。

re模块sub函数dirty_price=价格:¥1,299.50USD#规则解释:匹配¥,$符号或逗号,并替换为空字符串pattern_1=r[¥$,]#使用re.sub清洗价格clean_price=re.sub(pattern_1,,dirty_price)print(f原始价格:{dirty_price})print(f清洗后的价格:{clean_price})案例1:清理价格字符串,移除货币符号和千位分隔符输出:原始价格:价格:¥1,299.50USD清洗后的价格:价格:1299.50USD

re模块sub函数text_snippet_2=Thisisthefinaltext.br/\nspan/span#规则解释:匹配开头,结尾的标签,以及连续的空白字符pattern_2=r[^]+|\s+#使用re.sub移除标签和多余的空白cleaned_text_2=re.sub(pattern_2,,text_snippet_2).strip()print(f原始片段:{text_snippet_2})print(f清洗后的文本:{cleaned_text_2})案例2:移除段落末尾残留的HTML标签和多余空格输出:原始片段:Thisisthefinaltext.br/span/span清洗后的文本:Thisisthefinaltext.

re模块sub函数defdate_converter(match):??#match.group(1),match.group(2),match.group(3)对应(YYYY),(MM),(DD)??year=match.group(1)??month=match.group(2)??day=match.group(3)??returnf{day}/{month}/{year}“log_entry=Logreceivedon2025-10-25andprocessedby2025-10-26.#规则解释:捕获年(4位数字),月(2位数字),日(2位数字)pattern_3=r(\d{4})-(\d{2})-(\d{2})formatted_log=re.sub(pattern_3,date_converter,log_entry)print(f原始日志:{log_entry})print(f格式化日志:{formatted_log})案例3:将文本中的所有日期格式YYYY-MM-DD转换为DD/MM/YYYY输出:原始日志:Logreceivedon2025-10-25andprocessedby2025-10-26.格式化日志:Logreceivedon25/10/2025andprocessedby26/10/2025.

re模块sub函数server_log=User192.168.1.1accesseddatafrom10.0.0.5at10:00AM.#规则解释:匹配标准的IPv4地址格式(四组1-3位数字,由点分隔)pattern_4=r\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}sanitized_log=re.sub(pattern_4,XXX.XXX.XXX.XXX,server_log)print(f原始日志:{server_log})print(f脱敏日志:{sanitized_log})案例4:对日志或文本中的IP地址进行脱敏处理(用XXX.XXX替换)输出:原始日志:User192.168.1.1accessedd

您可能关注的文档

文档评论(0)

方世玉 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:6101050130000123

1亿VIP精品文档

相关文档