- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
re模块sub函数大数据采集技术与应用
1.掌握re模块sub函数功能和使用方法
re模块sub函数Sub函数sub函数将输入的字符串整个扫描,查找并替换字符串中所有符合正则表达式模式的部分。,sub函数的语法格式如下。sub方法常用的参数及其说明如下。re.sub(pattern,repl,string,count=0,flags=0)参数说明pattern接收Pattern实例。表示转换后的正则表达式。无默认值string接收string。表示输入的需要匹配的字符串。无默认值repl用于替换匹配内容的字符串或函数。如果是一个字符串,它将直接替换所有匹配项;如果是一个函数,该函数将对每个匹配项的MatchObject进行操作,并返回替换后的内容。
re模块sub函数dirty_price=价格:¥1,299.50USD#规则解释:匹配¥,$符号或逗号,并替换为空字符串pattern_1=r[¥$,]#使用re.sub清洗价格clean_price=re.sub(pattern_1,,dirty_price)print(f原始价格:{dirty_price})print(f清洗后的价格:{clean_price})案例1:清理价格字符串,移除货币符号和千位分隔符输出:原始价格:价格:¥1,299.50USD清洗后的价格:价格:1299.50USD
re模块sub函数text_snippet_2=Thisisthefinaltext.br/\nspan/span#规则解释:匹配开头,结尾的标签,以及连续的空白字符pattern_2=r[^]+|\s+#使用re.sub移除标签和多余的空白cleaned_text_2=re.sub(pattern_2,,text_snippet_2).strip()print(f原始片段:{text_snippet_2})print(f清洗后的文本:{cleaned_text_2})案例2:移除段落末尾残留的HTML标签和多余空格输出:原始片段:Thisisthefinaltext.br/span/span清洗后的文本:Thisisthefinaltext.
re模块sub函数defdate_converter(match):??#match.group(1),match.group(2),match.group(3)对应(YYYY),(MM),(DD)??year=match.group(1)??month=match.group(2)??day=match.group(3)??returnf{day}/{month}/{year}“log_entry=Logreceivedon2025-10-25andprocessedby2025-10-26.#规则解释:捕获年(4位数字),月(2位数字),日(2位数字)pattern_3=r(\d{4})-(\d{2})-(\d{2})formatted_log=re.sub(pattern_3,date_converter,log_entry)print(f原始日志:{log_entry})print(f格式化日志:{formatted_log})案例3:将文本中的所有日期格式YYYY-MM-DD转换为DD/MM/YYYY输出:原始日志:Logreceivedon2025-10-25andprocessedby2025-10-26.格式化日志:Logreceivedon25/10/2025andprocessedby26/10/2025.
re模块sub函数server_log=User192.168.1.1accesseddatafrom10.0.0.5at10:00AM.#规则解释:匹配标准的IPv4地址格式(四组1-3位数字,由点分隔)pattern_4=r\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}sanitized_log=re.sub(pattern_4,XXX.XXX.XXX.XXX,server_log)print(f原始日志:{server_log})print(f脱敏日志:{sanitized_log})案例4:对日志或文本中的IP地址进行脱敏处理(用XXX.XXX替换)输出:原始日志:User192.168.1.1accessedd
您可能关注的文档
- raise异常类名创建异常类的实例对象并引发异常raise异常类实例对象引发异常类实例对象对应的异常raise重新引发刚发生的异常96课件讲解.pptx
- ReadingAdvertizements英语泛读教程62课件讲解.pptx
- ReadingInstructions英语泛读教程97课件讲解.pptx
- ReadingScholarlyWriting英语泛读教程50课件讲解.pptx
- ReadingtheAdministrativeLanguage英语泛读教程97课件讲解.pptx
- ReadingtheFeatureStoryinaNewspaper英语泛读教程44课件讲解.pptx
- ReadingTheNewsStory英语泛读教程15课件讲解.pptx
- Redis部署与配置耿亚宁35课件讲解.pptx
- Requests模块32课件讲解.pptx
- Request定制请求头大数据采集技术与应用95课件讲解.pptx
- 2025四川天府银行社会招聘备考题库(攀枝花)含答案详解(最新).docx
- 2025四川银行首席信息官社会招聘备考题库及完整答案详解1套.docx
- 2025四川天府银行社会招聘备考题库(攀枝花)带答案详解.docx
- 2025四川天府银行社会招聘备考题库(成都)含答案详解(a卷).docx
- 2025四川广元市利州区选聘社区工作者50人备考题库及答案详解(基础+提升).docx
- 2025天津银行资产负债管理部总经理或副总经理招聘1人备考题库含答案详解(典型题).docx
- 2025四川天府银行社会招聘备考题库(西充)附答案详解(考试直接用).docx
- 2025年中国民生银行南宁分行招聘2人备考题库及答案详解(全优).docx
- 2025天津银行高级研究人才招聘备考题库附答案详解(达标题).docx
- 2025大连银行营口分行招聘2人备考题库及参考答案详解一套.docx
原创力文档


文档评论(0)