- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
Re模块介绍大数据采集技术与应用
1.掌握re模块的组成与核心函数
re模块正则表达式(RegularExpression,Regex)一种用于描述和匹配文本模式的形式化“迷你语言”。其功能超越了基础的文本查找,可执行复杂的模式匹配、信息提取与文本替换。re模块定义Python内置的标准库,为正则表达式操作提供了标准化的功能接口。它是执行Python文本处理任务(包括数据清洗和网络爬虫)的核心基础工具之一。核心价值:实现对非结构化文本信息的精准、高效、灵活的提取与处理。
re模块函数主要功能爬虫应用场景re.findall(pattern,string)查找所有匹配项,返回一个列表。从页面批量提取所有链接、价格、ID等。re.search(pattern,string)查找第一个匹配项,返回一个匹配对象(MatchObject)。提取唯一的特定目标,如文章标题、用户ID。re.sub(pattern,repl,string)查找并替换。(数据清洗)移除价格前的¥符号,或将5,000转换为5000。pile(pattern)编译正则表达式,返回一个模式对象。(性能优化)当规则需在长循环中反复使用时,预编译可提升执行效率re模块核心函数
re模块HTML是一种复杂的结构化文档,使用re直接解析将导致规则维护极其困难、性能低下且鲁棒性差。正确的工具栈(ToolStack):BeautifulSoup/lxml职责:解析HTML/XML文档,将其转换为可遍历的DOM树结构。动作:负责解析页面结构,定位到包含数据的大致区域(如某个div或p)。re模块职责:在定位的区域内,执行精细化的数据提取。动作:负责提取嵌在文本、属性或脚本标签中的具体数据。标准工作流:BeautifulSoup定位→re精准提取
re模块场景一:提取script标签内的JSON数据(核心场景)背景:现代网页常将核心数据(如商品信息)以JSON格式嵌入在script标签中,BeautifulSoup仅能获取完整的脚本字符串。解决方案:使用re.search配合分组(),直接从脚本字符串中提取出目标JSON对象。场景二:数据清洗与格式化背景:BeautifulSoup提取的文本常包含非目标字符(即“脏数据”),如[阅读量:5,123次,价格:¥199.99]。解决方案:使用re.sub剔除非数字字符,实现数据规范化。场景三:从属性或非结构化文本中提取特定ID背景:所需ID隐藏在class或id属性中,如divclass=post-itemuser-id-456。解决方案:BeautifulSoup获取属性字符串后,继而使用re提取目标数字ID。re模块应用
谢谢
您可能关注的文档
- raise异常类名创建异常类的实例对象并引发异常raise异常类实例对象引发异常类实例对象对应的异常raise重新引发刚发生的异常96课件讲解.pptx
- ReadingAdvertizements英语泛读教程62课件讲解.pptx
- ReadingInstructions英语泛读教程97课件讲解.pptx
- ReadingScholarlyWriting英语泛读教程50课件讲解.pptx
- ReadingtheAdministrativeLanguage英语泛读教程97课件讲解.pptx
- ReadingtheFeatureStoryinaNewspaper英语泛读教程44课件讲解.pptx
- ReadingTheNewsStory英语泛读教程15课件讲解.pptx
- Redis部署与配置耿亚宁35课件讲解.pptx
- Requests模块32课件讲解.pptx
- Request定制请求头大数据采集技术与应用95课件讲解.pptx
- SciPy大数据技术BIGDATA83课件讲解.pptx
- shutil模块56课件讲解.pptx
- SLM3D打印机的操作增材制造设备与维护41课件讲解.pptx
- SLM3D打印机的操作增材制造设备与维护46课件讲解.pptx
- SLM3D打印机的结构增材制造设备与维护49课件讲解.pptx
- SLM3D打印机工艺规划增材制造设备与维护26课件讲解.pptx
- SLS3D打印机新零件参数设置增材制造设备与维护19课件讲解.pptx
- SpringBoot创建SpringBoot企业级应用开发江苏电子信息职业大数据技术王志勃18课件讲解.pptx
- SpringBoot发展历程SpringBoot企业级应用开发江苏电子信息职业大数据技术王志勃66课件讲解.pptx
- SpringBoot分层架构解析SpringBoot企业级应用开发江苏电子信息职业大数据技术王志勃31课件讲解.pptx
原创力文档


文档评论(0)