《数据采集技术》课件——Beautiful Soup.pptxVIP

下载本文档

0
0
约5.12千字
约 26页
2024-12-26 发布于福建
举报
版权申诉

《数据采集技术》课件——Beautiful Soup.pptx

此“教育”领域文档为创作者个人分享资料，不作为权威性指导和指引，仅供参考

1、本文档共26页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

BeautifulSoup

Contents知识目标掌握BeautifulSoup使用方法技能目标提高数据采集和处理能力素养目标培养良好的信息素养和道德意识

BeautifulSoup开发BeautifulSoup4版本，简称为bs4bs4是一个Python库，功能：OR中提取数据从节省大量工作时间提高开发项目效率可以通过转换器实现惯用的文档导航和查找方式

bs4安装、使用安装bs4库：运行命令pipinstallbs4导入bs4库：通过语句frombs4importBeautifulSoup

bs4安装、使用运行命令pipinstallbs4安装bs4库：导入bs4库：通过语句frombs4importBeautifulSoup

bs4安装、使用使用bs4的一般流程：创建BeautifulSoup对象：根据要解析的或，创建一个BeautifulSoup对象。调用BeautifulSoup的构造函数创建对象

bs4安装、使用使用bs4的一般流程：搜索和遍历文档树：使用BeautifulSoup提供的方法来搜索和遍历文档树。使用find()或find_all()方法搜索满足特定条件的节点并使用点操作符和CSS选择器来访问节点的属性和文本。例如

bs4安装、使用使用bs4的一般流程：提取和操作数据：一旦找到了所需的节点，可以访问：节点的名称节点的属性节点的文本并根据需要进行进一步的数据提取和处理。

bs4安装、使用通过一个字符串或者类文件对象可以创建BeautifulSoup类的对象例如，根据字符串html_doc创建一个BeautifulSoup对象：示例：frombs4importBeautifulSoupsoup=BeautifulSoup(html_doc,lxml)print(soup)运行结果：htmlheadtitleTheDormousesstory/title/headbodypclass=titlebTheDormousesstory/b/ppclass=storyOnceuponatimetherewerethreelittlesisters;andtheirnameswereaclass=sisterhref=/lisiid=link1lisi/a,aclass=sisterhref=/zhangsanid=link2zhangsan/aandaclass=sisterhref=/wangwuid=link3wangwu/a;andtheylivedatthebottomofawell./ppclass=story.../p/body/html创建BeautifulSoup实例时共传入两个参数。第一个参数表示包含被解析HTML文档的字符串，第二个参数表示使用lxml解析器进行解析。

BeautifulSoup常见的解析器BeautifulSoup支持Python标准库中的HTML解析器以及一些第三方的解析器，常见的解析器如下表所示：解析器使用方法优势劣势Python标准库BeautifulSoup(markup,“html.parser”)Python的内置标准库执行速度适中文档容错能力强Python2.7.3or3.2.2前的版本中文档容错能力差lxmlHTML解析器BeautifulSoup(markup,“lxml”)速度快文档容错能力强需要安装C语言库lxmlXML解析器BeautifulSoup(markup,[“lxml”,“xml”])BeautifulSoup(markup,“xml”)速度快唯一支持XML的解析器需要安装C语言库html5libBeautifulSoup(markup,“html5lib”)最好的容错性以浏览器的方式解析文档生成HTML5格式的文档速度慢

BeautifulSoup常见的解析器BeautifulSoup对象会根据当前系统安装的库自动选择解析器，选择顺序为：lxml如果没有指定解析器创建BeautifulSoup对象时：html5libPython标准库

通过操作方法进行解读搜索bs4库内置了一些查找方法，其中常用的两个方法功能如下：find()方法findall()方法用于查找符合查询条件的第一个标签节点。查找所有符合查询条件的标签节点，并返回一个列表。两个方法用到的参数是一样的，以find_all()方法为例：find_all(self,name=None,attrs={},recursive=True,text=None,limit=None,**kwargs)通过