- 1、本文档共32页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
使用GET方式抓取数据,代码如下: import requests url= strhtml=requests.get(url) print(strhtml.text) 语句含义如下: import requests:导入requests库 url=:访问目标网页 strhtml=requests.get(url):将获取的数据保存到strhtml变量中 print(strhtml.text):打印网页源码 2.4 爬虫抓取网页内容 import requests from bs4 import BeautifulSoup import time ? headers = { User-Agent:Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36 } ? def get_info(url): wb_data = requests.get(url,headers=headers) soup = BeautifulSoup(wb_data.text,lxml) ranks = soup.select(span.pc_temp_num) titles = soup.select(div.pc_temp_songlist ul li a) times = soup.select(span.pc_temp_tips_r span) for rank,title,time in zip(ranks,titles,times): data = { rank:rank.get_text().strip(), singer:title.get_text().split(-)[0], song:title.get_text().split(-)[0], time:time.get_text().strip() } print(data) ? if __name__ == __main__: urls = [/yy/rank/home/{}-8888.html.format(str(i)) for i in range(1,24)] for url in urls: get_info(url) time.sleep(1) 本章小结 (1)网络爬虫(Web Spider)又称之为网络机器人、网络蜘蛛,是一种通过既定规则,能够自动提取网页信息的程序。网络爬虫在信息搜索和数据挖掘过程中扮演着重要的角色。 (2)Python语言具有开源、免费、功能强大;语法简洁清晰,强制用空白符(white space)作为语句缩进;具有丰富和强大的库;易读、易维护,用途广泛;解释性语言,其变量类型可改变,类似于JavaScript语言等特点。 (3)Python的语句向右边缩进,它是靠缩进语句来表示要执行的语句的。 (4)Python的变量是没有类型的,但这绝不是说 Python就没有数据类型。Python常用的数据类型包含整型、浮点型、布尔类型、字符串类型、列表类型、元组类型等各种不同的数据类型。 (5)基础爬虫框架主要包括五大模块,分别为爬虫调度器、URL管理器、HTML下载器、HTML解析器和数据存储器。 (6)使用 Python编写爬虫代码,需要用到Python专门的urllib模块和Requests库。 大数据分析 第二章 爬虫与大数据 本章学习目标 了解爬虫的定义 掌握Python开发运行环境 使用Python书写爬虫 使用爬虫进行网页内容的抓取 2.1 爬虫的基本概念 网络爬虫(Web Spider)又称之为网络机器人、网络蜘蛛,是一种通过既定规则,能够自动提取网页信息的程序。 在大数据架构中,数据收集与数据存储占据了极为重要的地位,可以说是大数据的核心基础,而爬虫技术在这两大核心技术层次中占有很大的比例。 2.2 Python介绍 Python是一种面向对象的解释型计算机程序设计语言,由荷兰人Guido van Rossum于1989年发明。Python的第一个公开发行版于1991年发行。 Python语言具有如下特点: 开源、免费、功能强大; 语法简洁清晰,强制用空白符( white space)作为语句缩进; 具有丰富和强大的库; 易读
您可能关注的文档
- 大数据分析 第一章 大数据介绍.pptx
- 大数据分析 第三章 Scrapy爬虫.ppt
- 大数据分析 第四章 数据库连接与查询.ppt
- 大数据分析 第五章 数据可视化基础与应用.ppt
- 大数据分析 第六章 大数据存储与清洗.ppt
- 大数据分析 第七章 数据格式与编码技术.ppt
- 专题10 动词时态100题-备战2023中考英语单项选择百题分类训练(中考真题+名地最新模拟题).docx
- 磁场、磁感线-PPT课件-课件4-人教课标版.ppt
- 人教版部编教材七年级上册道德与法治《第三单元师长情谊第七课亲情之爱第2课时爱在家人间》PPT课件.pptx
- 《品牌公关传播》PPT课件.ppt
- 专题10 化学用语与微观示意图(复习讲义)-2023年中考化学二轮复习讲义+训练(全国通用)(原卷版).docx
- 专题09 化学计算(复习讲义)-2023年中考化学二轮复习讲义+训练(全国通用)(原卷版).docx
- 专题11 完成句子-备战2023年中考英语二轮复习题型全面解读与技巧点拨(全国通用)(原卷版).docx
- 专题09 二次函数与几何综合——2024中考数学二轮复习《 中考数学必考题型千题狂练》(全国通用版)(解析版).docx
- 专题09 二次函数与几何综合——2024中考数学二轮复习《 中考数学必考题型千题狂练》(全国通用版)(原卷版).docx
- 专题11 勇担社会责任 -三年(2020—2022) (原卷版).docx
- 专题09 短文填空题-备战2023年中考英语二轮复习题型全面解读与技巧点拨(全国通用)(原卷版).docx
- 专题09 一次函数【考点巩固】(原卷版).docx
- 2021年证券从业考试《金融市场基础知识》PPT讲义三.pptx
- 人教部编版八年级上册第6课-戊戌变法-(共38张PPT).ppt
文档评论(0)