大数据基础 课件 课件5-2 BeautifulSoup网络数据采集.pptx

大数据基础 课件 课件5-2 BeautifulSoup网络数据采集.pptx

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

浙江经贸职业技术学院《大数据基础》.移动商务营销课程群5.1.1数据采集原理5.1数据采集5.1.2BeautifulSoup网络数据采集与预处理数据采集大数据基础Unit5

?BeautifulSoup简介BeautifulSoup提供一些简单的、Python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。Anaconda已经安装了BeautifulSoup包,程序中导入包就可以直接使用。frombs4importBeautifulSoup5.1.2BeautifulSoup网络数据采集

?获取网页内容网页的原始内容可以使用requests包的get方法获取,在设置了编码之后就能获得html文本。而解析html文本的结构,获取指定的元素标签内容,这部分工作则可以通过BeautifulSoup实现。下例获取百度首页内容importrequests#导入requests包res=requests.get()#获取网页内容res.encoding=utf-8#设置编码格式html=res.text#获取网页文本print(html)5.1.2BeautifulSoup网络数据采集

?练习材料说明为例便于讲解BeautifulSoup包的功能,本节不使用真实网页数据进行练习,而是使用以下html文本,文本存放在test_html.txt中。html=htmlheadtitleTheDormousesstory/title/headbodypclass=titlename=dromousebTheDormousesstory/b/ppclass=storyThereweretwolittlesisters;andtheirnameswereahref=/elsieclass=sisterid=link1Elsie/aandahref=/lacieclass=sisterid=link2Lacie/a./ppclass=story.../p5.1.2BeautifulSoup网络数据采集

?创建BeautifulSoup对象使用html.parser解析html文本内容,创建BeautifulSoup对象。frombs4importBeautifulSoupsoup=BeautifulSoup(html,html.parser)5.1.2BeautifulSoup网络数据采集

?根据标签名查找BeautifulSoup提供的select方法可以根据CSS选择器查找元素标签。查找结果存放在列表中,列表的每一个元素为匹配的元素标签,如果要访问标签可以使用列表的下标引用。直接传递标签名给select方法,可以查找所有标签名相符的元素。soup.select(a)#查找所有a标签,结果为标签列表5.1.2BeautifulSoup网络数据采集

?根据class或id查找传递’.class’参数时,BeautifulSoup根据class属性进行查找;传递’#id’参数时,BeautifulSoup根据id属性进行查找。soup.select(.sister)5.1.2BeautifulSoup网络数据采集soup.select(#linke1)

?根据上下级关系查找当查找条件之间用空格分隔时,以普通上下级关系进行查找;当查找条件之间以空格大于号空格分隔时,以直接上下级关系进行查找。soup.select(body#link1)5.1.2BeautifulSoup网络数据采集soup.select(pa)

?获取标签的内容经过查找得到元素标签列表后,使用下标或迭代可以取出标签。然后可以进一步访问标签的内容,如文本、链接等。soup.select(a)[0]5.1.2BeautifulSoup网络数据采集soup.select(a)[0].text#获取文本Elsie‘soup.select(a)[0][href]#获取链接/elsie

《大数据基础》在线开放课程组《大数据基础》.移动商务营销课程群

文档评论(0)

lai + 关注
实名认证
内容提供者

精品资料

版权声明书
用户编号:7040145050000060

1亿VIP精品文档

相关文档