- 1、本文档共26页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
BeautifulSoup
Contents知识目标掌握BeautifulSoup使用方法技能目标提高数据采集和处理能力素养目标培养良好的信息素养和道德意识
BeautifulSoup开发BeautifulSoup4版本,简称为bs4bs4是一个Python库,功能:OR中提取数据从节省大量工作时间提高开发项目效率可以通过转换器实现惯用的文档导航和查找方式
bs4安装、使用安装bs4库:运行命令pipinstallbs4导入bs4库:通过语句frombs4importBeautifulSoup
bs4安装、使用运行命令pipinstallbs4安装bs4库:导入bs4库:通过语句frombs4importBeautifulSoup
bs4安装、使用使用bs4的一般流程:创建BeautifulSoup对象:根据要解析的或,创建一个BeautifulSoup对象。调用BeautifulSoup的构造函数创建对象
bs4安装、使用使用bs4的一般流程:搜索和遍历文档树:使用BeautifulSoup提供的方法来搜索和遍历文档树。使用find()或find_all()方法搜索满足特定条件的节点并使用点操作符和CSS选择器来访问节点的属性和文本。例如
bs4安装、使用使用bs4的一般流程:提取和操作数据:一旦找到了所需的节点,可以访问:节点的名称节点的属性节点的文本并根据需要进行进一步的数据提取和处理。
bs4安装、使用通过一个字符串或者类文件对象可以创建BeautifulSoup类的对象例如,根据字符串html_doc创建一个BeautifulSoup对象:示例:frombs4importBeautifulSoupsoup=BeautifulSoup(html_doc,lxml)print(soup)运行结果:htmlheadtitleTheDormousesstory/title/headbodypclass=titlebTheDormousesstory/b/ppclass=storyOnceuponatimetherewerethreelittlesisters;andtheirnameswereaclass=sisterhref=/lisiid=link1lisi/a,aclass=sisterhref=/zhangsanid=link2zhangsan/aandaclass=sisterhref=/wangwuid=link3wangwu/a;andtheylivedatthebottomofawell./ppclass=story.../p/body/html创建BeautifulSoup实例时共传入两个参数。第一个参数表示包含被解析HTML文档的字符串,第二个参数表示使用lxml解析器进行解析。
BeautifulSoup常见的解析器BeautifulSoup支持Python标准库中的HTML解析器以及一些第三方的解析器,常见的解析器如下表所示:解析器使用方法优势劣势Python标准库BeautifulSoup(markup,“html.parser”)Python的内置标准库执行速度适中文档容错能力强Python2.7.3or3.2.2前的版本中文档容错能力差lxmlHTML解析器BeautifulSoup(markup,“lxml”)速度快文档容错能力强需要安装C语言库lxmlXML解析器BeautifulSoup(markup,[“lxml”,“xml”])BeautifulSoup(markup,“xml”)速度快唯一支持XML的解析器需要安装C语言库html5libBeautifulSoup(markup,“html5lib”)最好的容错性以浏览器的方式解析文档生成HTML5格式的文档速度慢
BeautifulSoup常见的解析器BeautifulSoup对象会根据当前系统安装的库自动选择解析器,选择顺序为:lxml如果没有指定解析器创建BeautifulSoup对象时:html5libPython标准库
通过操作方法进行解读搜索bs4库内置了一些查找方法,其中常用的两个方法功能如下:find()方法findall()方法用于查找符合查询条件的第一个标签节点。查找所有符合查询条件的标签节点,并返回一个列表。两个方法用到的参数是一样的,以find_all()方法为例:find_all(self,name=None,attrs={},recursive=True,text=None,limit=None,**kwargs)通过
您可能关注的文档
- 《气动与液压技术》课件——2气动技术的特点和应用.pptx
- 《机械制图》课件——1-4尺规作图.pptx
- 《数据采集技术》课件——初识数据采集.pptx
- 《机械制图与CAD绘图》课件——剖视图.pptx
- 《工业机器人工作站的集成》课件——建立与机器人的连接(二).pptx
- 《数据采集技术》课件——JSONPath 与 json 模块.pptx
- 《数据采集技术》课件——数据解析技术.pptx
- 《建筑工程计量与计价》课件——39.整体楼地面计量与计价.pptx
- 《电子商务》课件——电子商务视觉配色设计.ppt
- 《大学生创新创业》课件——第二章 创新、创造思维的基本原理和方法.ppt
- 某区纪委书记年度民主生活会“四个带头”个人对照检查材料.docx
- 某县纪委监委2024年工作总结及2025年工作计划.docx
- 某市场监督管理局2024年第四季度意识形态领域风险分析研判报告.docx
- 县委书记履行全面从严治党“第一责任人”职责情况汇报.docx
- 税务局党委书记2024年抓党建工作述职报告.docx
- 某市税务局副局长202X年第一季度“一岗双责”履行情况报告.docx
- 副县长在全县元旦春节前后安全生产和消防安全工作部署会议上的讲话.docx
- 某市委书记个人述职报告.docx
- 某县长在县委常委班子年度民主生活会个人对照检查材料1.docx
- 某县长在县委常委班子年度民主生活会个人对照检查材料.docx
文档评论(0)