- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
re模块findall函数大数据采集技术与应用
1.掌握re模块findall函数功能和使用方法
re模块findall函数findall函数findall方法搜索整个string,返回一个列表包含全部能匹配的子串,其语法格式如下findall方法常用的参数及其说明如下。re.findall(pattern,string[,flags])参数说明pattern接收Pattern实例。表示转换后的正则表达式。无默认值string接收string。表示输入的需要匹配的字符串。无默认值flag接收string。表示匹配模式,取值为运算符“|”时表示同时生效,如re.I|re.M。默认为None
re模块findall函数data_block_1=Visitoursiteat/homeandcheckthestatusat/info.#规则解释:匹配http或https开头,直到遇到空白字符(\s)停止pattern_1=rhttps?://[^\s]+#使用re.findall提取所有匹配项found_urls=re.findall(pattern_1,data_block_1)print(f原始文本:{data_block_1})print(f提取的URL列表:{found_urls})案例1:从文本块中提取所有URL链接输出:原始文本:Visitoursiteat/homeandcheckthestatusat/info.提取的URL列表:[/home,/info.]
re模块findall函数html_snippet_2=imgsrc=/assets/img1.jpgclass=small/imgsrc=/assets/img2.pngalt=logo/#规则解释:查找src=,然后使用非贪婪匹配(.*?)捕获引号内的内容pattern_2=rsrc=(.*?)#使用re.findall提取所有SRC值found_srcs=re.findall(pattern_2,html_snippet_2)print(fHTML片段:{html_snippet_2})print(f提取的SRC列表:{found_srcs})案例2:提取HTML标签中所有图片的SRC属性值输出:HTML片段:imgsrc=/assets/img1.jpgclass=small/imgsrc=/assets/img2.pngalt=logo/提取的SRC列表:[/assets/img1.jpg,/assets/img2.png]
re模块findall函数social_post_3=Thanksto@user_alphaand@beta_userforthefeedback.@admin,pleasereviewthis.#规则解释:查找@符号后紧跟的一位或多位字母、数字或下划线(\w+)pattern_3=r@(\w+)#使用re.findall提取所有用户名(不含@符号,因为使用了分组)found_users=re.findall(pattern_3,social_post_3)print(f社交媒体文本:{social_post_3})print(f提取的用户名列表:{found_users})案例3:从社交媒体文本中提取所有以@开头的用户名输出:社交媒体文本:Thanksto@user_alphaand@beta_userforthefeedback.@admin,pleasereviewthis.提取的用户名列表:[user_alpha,beta_user,admin]
re模块findall函数product_ratings=Rating:4.5,Price:199.00,Views:83,Comments:12#规则解释:查找一个或多个数字(\d+),可选择后面跟着一个点和更多数字(\.?\d*)pattern_4=r\d+\.?\d*found_numbers=re.findall(pattern_4,product_ratings)print(f产品信息文本:{product_ratings})print(f提取的数字列表:{found_numbers})案例4:从产品信息中提取所有数字(包括整数和浮点数)输出:产品信息文本:Rating:4.5,Price:199.00,Views:8
您可能关注的文档
- raise异常类名创建异常类的实例对象并引发异常raise异常类实例对象引发异常类实例对象对应的异常raise重新引发刚发生的异常96课件讲解.pptx
- ReadingAdvertizements英语泛读教程62课件讲解.pptx
- ReadingInstructions英语泛读教程97课件讲解.pptx
- ReadingScholarlyWriting英语泛读教程50课件讲解.pptx
- ReadingtheAdministrativeLanguage英语泛读教程97课件讲解.pptx
- ReadingtheFeatureStoryinaNewspaper英语泛读教程44课件讲解.pptx
- ReadingTheNewsStory英语泛读教程15课件讲解.pptx
- Redis部署与配置耿亚宁35课件讲解.pptx
- Requests模块32课件讲解.pptx
- Request定制请求头大数据采集技术与应用95课件讲解.pptx
- re模块sub函数大数据采集技术与应用05课件讲解.pptx
- re模块的修饰符大数据采集技术与应用37课件讲解.pptx
- Re模块介绍大数据采集技术与应用37课件讲解.pptx
- SciPy大数据技术BIGDATA83课件讲解.pptx
- shutil模块56课件讲解.pptx
- SLM3D打印机的操作增材制造设备与维护41课件讲解.pptx
- SLM3D打印机的操作增材制造设备与维护46课件讲解.pptx
- SLM3D打印机的结构增材制造设备与维护49课件讲解.pptx
- SLM3D打印机工艺规划增材制造设备与维护26课件讲解.pptx
- SLS3D打印机新零件参数设置增材制造设备与维护19课件讲解.pptx
最近下载
- 汽车维修工中级题库+答案.docx VIP
- 汽车维修工中级题库及答案.docx VIP
- 标准图集-沪-上海市排水管道通用图(第一册)PSAR-D01-92.pdf VIP
- 23.梅兰芳蓄须 课件 (共44张PPT).pptx VIP
- 2024年2月汽车维修工中级题库+答案(附解析).docx VIP
- 消防救援队伍执勤战斗条令.pdf VIP
- 八年级语文测试习题:语文版《周亚夫军细柳》同步练习.doc VIP
- 医院感染暴发控制指南解读高敏.ppt VIP
- pkpm抗震鉴定及加固设计ppt(138页).ppt VIP
- 13.1《读书的目的和前提》课件(共28张PPT)2025-2026学年统编版高中语文必修上册.pptx VIP
原创力文档


文档评论(0)