- 1、本文档共20页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
项目实战:网络爬虫爬虫简介网络爬虫(WebSpider)也叫作网页蜘蛛、网络机器人、网络追逐者。它是一种脚本程序,可以高效准确的将网络上所需的信息进行自动提取。如果将互联网比作蜘蛛网,网络爬虫通过不同网页的链接地址实现在蜘蛛网上爬来爬去获取所需信息。爬虫简介网络爬虫可分为通用网络爬虫和聚焦网络爬虫。通用网络爬虫工作原理:从互联网上采集网页信息后,这些信息主要用于为搜索引擎提供支持,它决定整个搜索引擎的信息及时性和内容的丰富程度。聚焦网络爬虫工作原理:从互联网上采集网页信息时会对内容进行筛选处理,只爬取所需的网页信息。本章节详细讲解聚焦网络爬虫。项目分析以豆瓣电影TOP250为目标,爬取目标中的中文电影名、年份、评分、评论人数和最热评论的信息,并将爬取得到的信息存入为本地文件,最后将排名前10的电影信息(评论人数、评分)可视化显示。设计思路:明确爬取目标及所需要的效果。根据URL爬取网页数据信息。根据需求进行数据清洗。数据可视化分析。爬取网页URL(统一资源定位符):从互联网上得到的资源的位置和访问方法的表示,是互联网上标准资源的地址。通俗来讲URL就是网址。URL格式:protocol://hostname[:port]/path/[;parameters][?query]#fragment说明:protocol(协议):传输协议(HTTP、FTP等)。hostname(主机名):指存放资源的服务器的域名系统(DNS)主机名或IP地址。port(端口号):整数,省略时使用协议默认的端口(可选项)。path(路径):表示主机上的一个目录或文件地址。parameters(参数):指定特殊参数(可选项)。query(查询):给动态网页传递参数,用“”符号隔开,每个参数的名和值用“=”符号隔开(可选项)。fragment(信息片断):字符串,指定网络资源中的片断。举例说明:/downloads/协议:HTTP。域名:。请求目录:downloads。爬取网页fromurllibimportrequesturl=#I360SE的User-Agent,包含在ua_header里ua_header={User-Agent:Mozilla/4.0(compatible;MSIE8.0;WindowsNT5.1;Trident/4.0;.NETCLR2.0.50727;360SE)}#url连同headers,一起构造Request请求,这个请求将附带IE9.0浏览器的User-Agenturl_buf=request.Request(url,headers=ua_header)#向服务器发送这个请求response=request.urlopen(url_buf)html=response.read()print(html)爬取网页为了爬取豆瓣电影TOP250中的中文电影名、评分、评论人数和最热评论的信息,必须要确定目标网址。经过查找豆瓣网URL为:/top250?start=0filter=然后分析豆瓣网URL的规律:豆瓣电影TOP250网址第一页:/top250?start=0filter=豆瓣电影TOP250网址第二页:/top250?start=25filter=豆瓣电影TOP250网址第三页:/top250?start=50filter=一直到第十页:/top250?start=225filter=分析后可以发现规律,豆瓣电影TOP250网址中的每页URL中“start=”后面的数值是不一样的,并且是在上次的基础上累加数值25,根据这个规律可以爬取豆瓣电影TOP250网址中所有数据信息。爬取网页为了爬取豆瓣电影TOP250中的中文电影名、评分、评论人数和最热评论的信息,必须要确定目标网址。经过查找豆瓣网URL为:/top250?start=0filter=然后分析豆瓣网URL的规律:豆瓣电影TOP250网址第一页:/top250?start=0filter=豆瓣电影TOP250网址第二页:/top250?start=25filter=豆瓣电影TOP250网址第三页:/top250?start=50filter=一直到第十页:/top250?start=225filter=分析后可以发现规律,豆瓣电影TOP250网址中的每页URL中“start=”后面的数值是不一样的,并且是在上次的基础上累加数值25,根据这个规律可以爬取豆瓣电影TOP250网址中所有数据信息。爬取网页爬取豆瓣TOP250所有源代码#获得
文档评论(0)