大数据分析 第二章 爬虫与大数据.ppt

大数据分析 第二章 爬虫与大数据.ppt

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、本文档共32页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
使用GET方式抓取数据,代码如下: import requests url= strhtml=requests.get(url) print(strhtml.text) 语句含义如下: import requests:导入requests库 url=:访问目标网页 strhtml=requests.get(url):将获取的数据保存到strhtml变量中 print(strhtml.text):打印网页源码 2.4 爬虫抓取网页内容 import requests from bs4 import BeautifulSoup import time ? headers = { User-Agent:Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36 } ? def get_info(url): wb_data = requests.get(url,headers=headers) soup = BeautifulSoup(wb_data.text,lxml) ranks = soup.select(span.pc_temp_num) titles = soup.select(div.pc_temp_songlist ul li a) times = soup.select(span.pc_temp_tips_r span) for rank,title,time in zip(ranks,titles,times): data = { rank:rank.get_text().strip(), singer:title.get_text().split(-)[0], song:title.get_text().split(-)[0], time:time.get_text().strip() } print(data) ? if __name__ == __main__: urls = [/yy/rank/home/{}-8888.html.format(str(i)) for i in range(1,24)] for url in urls: get_info(url) time.sleep(1) 本章小结 (1)网络爬虫(Web Spider)又称之为网络机器人、网络蜘蛛,是一种通过既定规则,能够自动提取网页信息的程序。网络爬虫在信息搜索和数据挖掘过程中扮演着重要的角色。 (2)Python语言具有开源、免费、功能强大;语法简洁清晰,强制用空白符(white space)作为语句缩进;具有丰富和强大的库;易读、易维护,用途广泛;解释性语言,其变量类型可改变,类似于JavaScript语言等特点。 (3)Python的语句向右边缩进,它是靠缩进语句来表示要执行的语句的。 (4)Python的变量是没有类型的,但这绝不是说 Python就没有数据类型。Python常用的数据类型包含整型、浮点型、布尔类型、字符串类型、列表类型、元组类型等各种不同的数据类型。 (5)基础爬虫框架主要包括五大模块,分别为爬虫调度器、URL管理器、HTML下载器、HTML解析器和数据存储器。 (6)使用 Python编写爬虫代码,需要用到Python专门的urllib模块和Requests库。 大数据分析 第二章 爬虫与大数据 本章学习目标 了解爬虫的定义 掌握Python开发运行环境 使用Python书写爬虫 使用爬虫进行网页内容的抓取 2.1 爬虫的基本概念 网络爬虫(Web Spider)又称之为网络机器人、网络蜘蛛,是一种通过既定规则,能够自动提取网页信息的程序。 在大数据架构中,数据收集与数据存储占据了极为重要的地位,可以说是大数据的核心基础,而爬虫技术在这两大核心技术层次中占有很大的比例。 2.2 Python介绍 Python是一种面向对象的解释型计算机程序设计语言,由荷兰人Guido van Rossum于1989年发明。Python的第一个公开发行版于1991年发行。 Python语言具有如下特点: 开源、免费、功能强大; 语法简洁清晰,强制用空白符( white space)作为语句缩进; 具有丰富和强大的库; 易读

您可能关注的文档

文档评论(0)

dllkxy + 关注
实名认证
内容提供者

本文库主要涉及建筑、教育等资料,有问题可以联系解决哦

版权声明书
用户编号:5213302032000001

1亿VIP精品文档

相关文档