re模块findall函数大数据采集技术与应用13课件讲解.pptxVIP

re模块findall函数大数据采集技术与应用13课件讲解.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

re模块findall函数大数据采集技术与应用

1.掌握re模块findall函数功能和使用方法

re模块findall函数findall函数findall方法搜索整个string,返回一个列表包含全部能匹配的子串,其语法格式如下findall方法常用的参数及其说明如下。re.findall(pattern,string[,flags])参数说明pattern接收Pattern实例。表示转换后的正则表达式。无默认值string接收string。表示输入的需要匹配的字符串。无默认值flag接收string。表示匹配模式,取值为运算符“|”时表示同时生效,如re.I|re.M。默认为None

re模块findall函数data_block_1=Visitoursiteat/homeandcheckthestatusat/info.#规则解释:匹配http或https开头,直到遇到空白字符(\s)停止pattern_1=rhttps?://[^\s]+#使用re.findall提取所有匹配项found_urls=re.findall(pattern_1,data_block_1)print(f原始文本:{data_block_1})print(f提取的URL列表:{found_urls})案例1:从文本块中提取所有URL链接输出:原始文本:Visitoursiteat/homeandcheckthestatusat/info.提取的URL列表:[/home,/info.]

re模块findall函数html_snippet_2=imgsrc=/assets/img1.jpgclass=small/imgsrc=/assets/img2.pngalt=logo/#规则解释:查找src=,然后使用非贪婪匹配(.*?)捕获引号内的内容pattern_2=rsrc=(.*?)#使用re.findall提取所有SRC值found_srcs=re.findall(pattern_2,html_snippet_2)print(fHTML片段:{html_snippet_2})print(f提取的SRC列表:{found_srcs})案例2:提取HTML标签中所有图片的SRC属性值输出:HTML片段:imgsrc=/assets/img1.jpgclass=small/imgsrc=/assets/img2.pngalt=logo/提取的SRC列表:[/assets/img1.jpg,/assets/img2.png]

re模块findall函数social_post_3=Thanksto@user_alphaand@beta_userforthefeedback.@admin,pleasereviewthis.#规则解释:查找@符号后紧跟的一位或多位字母、数字或下划线(\w+)pattern_3=r@(\w+)#使用re.findall提取所有用户名(不含@符号,因为使用了分组)found_users=re.findall(pattern_3,social_post_3)print(f社交媒体文本:{social_post_3})print(f提取的用户名列表:{found_users})案例3:从社交媒体文本中提取所有以@开头的用户名输出:社交媒体文本:Thanksto@user_alphaand@beta_userforthefeedback.@admin,pleasereviewthis.提取的用户名列表:[user_alpha,beta_user,admin]

re模块findall函数product_ratings=Rating:4.5,Price:199.00,Views:83,Comments:12#规则解释:查找一个或多个数字(\d+),可选择后面跟着一个点和更多数字(\.?\d*)pattern_4=r\d+\.?\d*found_numbers=re.findall(pattern_4,product_ratings)print(f产品信息文本:{product_ratings})print(f提取的数字列表:{found_numbers})案例4:从产品信息中提取所有数字(包括整数和浮点数)输出:产品信息文本:Rating:4.5,Price:199.00,Views:8

文档评论(0)

方世玉 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:6101050130000123

1亿VIP精品文档

相关文档