- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
电子商务大数据分析;为什么要有数据采集和预处理?;数据从哪里来?;怎样采集数据?;怎样采集数据?;怎样采集数据?;怎样采集数据?;怎样采集数据?;怎样采集数据?;网络爬虫为什么要使用网络爬虫?(1)网络爬虫,搜索引擎背后的基础技术。百度和谷歌搜索显示的页面,都源自于网络爬虫每天不停的工作。(2)网络爬虫可以一次下载大量网页。(3)网络爬虫和各种网站开放的API有什么不同?多源异构的互联网开放数据经过预处理,数据融合以后的有价值的数据。;网络爬虫网络爬虫(Web Crawler)的定义:;网络爬虫网络爬虫的分类:(1)全网爬虫:搜集整个互利网的网页(百度,谷歌,搜狗等)(2)主题网络爬虫: 特定需求的爬虫,比如八爪鱼 (3)增量式网络爬虫:不抓取重复的数据,保证新数据和旧数据的唯一性。 (4)深层网络爬虫: 深层网络爬虫对应深层网络数据。表层网络数据:网页显示的内容。深层网络数据:藏在网页背后的数据库的内容,并没有完全通过网页展示出来。或者是特定用户才有权限看到的内容。;网络爬虫网络爬虫的预备基础知识:客户端-服务器CS模式(Client - Server);网络爬虫的预备基础知识:HTTP 协议HTTP协议基于CS模式,是一种请求响应的协议。通常请求由客户机上的Web浏览器发出,而服务器上的Web网站收到请求,给出响应。右边是一个访问Wiki百科的例子。包括Request, Response Header, Response body三个部分。;网络爬虫的预备基础知识:其他网络协议文件传输协议File Transfer Protocol(FTP)邮件相关的邮局协议 Post Office Protocol Version 3(POP3)Simple Mail Transfer Protocol (SMTP)安全的远程登录和访问的协议:Secure Shell (SSH),Telnet等。;网络爬虫网络爬虫的技术原理(如右图所示):(1)调度器(Scheduler)输入种子URL(2)下载器(downloader)下载相关页面。(3)下载器从下载的页面中,由挖网页解析器抽取关联的URLs,放入调度器的队列Queue,等待下一轮处理。(4)下载器把下载得到的页面进行存储。(5)调度器从增量的URLs???始新一轮任,重复步骤(1)-(4)。(6)整个过程迭代,直到队列中的URLs列表为空,停止下载。;网络爬虫网络爬虫实战的常用工具。C/C++等语言一般用于百度等搜索引擎公司,用于设计通用的搜索引擎,但是由于实现比较复杂,不适合初学者。Python相比较C/C++而言,具有简单易学,功能较全的特点。Python的url和urllib:由URLs列表得到网页内容,Re库:通过正则表达式解析下载网页中的URLs,并放到队列Queue中。整个爬虫框架Scrapy = Scrach(抓取)+Python;网络爬虫:一个Scrapy的例子:抓取某网站的内容(1).;网络爬虫:一个Scrapy的例子:抓取某网站的内容(2).;网络爬虫与反爬虫技术:为什么要反爬虫?(1)爬虫消耗了大量的服务器响应资源,使得正常的响应变慢。(2)爬虫会盗用一部分网站不想公开的数据和信息。反爬虫的主要技术有哪些?(1)基于Headers反爬虫:浏览器访问服务器,在Headers中有User-Agent-Referer字段。爬虫可以模拟浏览器绕过此限制。(2)基于用户行为反爬虫:同一用户短时间大量访问某网站。爬虫应对策略:使用代理IP或降低访问频率。(3)动态页面反爬虫:模拟AJAX请求,或是模拟浏览器发送动态请求。(4)Cookie限制:Cookie检验。(5)验证码限制:拖动某个图片,或输入某个字母进行手动验证。;网络爬虫的法律与道德约束:合理合法地获得网上的数据(1)未经授权,不得擅自将有版权的数据公布,供人下载。(2)不得擅自下载,或者暴力破解数据。(3) 不得违规下载涉密数据。(4) 遵循robots协议,那些页面能够被抓取,那些页面不能被抓取。;网络爬虫的法律与道德约束:合理合法地获得网上的数据(1)未经授权,不得擅自将有版权的数据公布,供人下载。(2)不得擅自下载,或者暴力破解数据。(3) 不得违规下载涉密数据。(4) 遵循robots协议,那些页面能够被抓取,那些页面不能被抓取。;电子商务数据的采集:数据的来源及分类:(1)电子商务数据平台的基础数据(2)电商专业网站的研究数据(3)基于电商媒体的数据(4)基于电商评论的数据电商平台的数据采集:(1)HTML
您可能关注的文档
- 《Photoshop建筑效果图实用教程》试题答案2套.docx
- 办公自动化实例教程实例二 “新时代新青年”文档的图文混排.docx
- 办公自动化实例教程实例二 “邀请函”的批量制作.docx
- 办公自动化实例教程实例二 “运动会竞赛规程”的流程设计.docx
- 办公自动化实例教程实例一 “大学第一课”文档的基本编辑.docx
- 办公自动化实例教程实例一 “工作证”的批量制作.docx
- 办公自动化实例教程实例一 “院系设置和专业介绍手册”的制作.docx
- 办公自动化实例教程拓展训练 “个人简历”的制作.docx
- 办公自动化实例教程拓展训练 “工资条”的批量制作.docx
- 财务报表分析第4版高教版习题答案.docx
文档评论(0)