电子商务大数据分析教学课件2-数据采集和预处理.pptxVIP

电子商务大数据分析教学课件2-数据采集和预处理.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
电子商务大数据分析;为什么要有数据采集和预处理?;数据从哪里来?;怎样采集数据?;怎样采集数据?;怎样采集数据?;怎样采集数据?;怎样采集数据?;怎样采集数据?;网络爬虫 为什么要使用网络爬虫? (1)网络爬虫,搜索引擎背后的基础技术。百度和谷歌搜索显示的页面,都源自于网络爬虫每天不停的工作。 (2)网络爬虫可以一次下载大量网页。 (3)网络爬虫和各种网站开放的API有什么不同? 多源异构的互联网开放数据 经过预处理,数据融合以后的有价值的数据。;网络爬虫 网络爬虫(Web Crawler)的定义: ;网络爬虫 网络爬虫的分类: (1)全网爬虫:搜集整个互利网的网页(百度,谷歌,搜狗等) (2)主题网络爬虫: 特定需求的爬虫,比如八爪鱼 (3)增量式网络爬虫:不抓取重复的数据,保证新数据和旧数据的唯一性。 (4)深层网络爬虫: 深层网络爬虫对应深层网络数据。 表层网络数据:网页显示的内容。 深层网络数据:藏在网页背后的数据库的内容,并没有完全通过网页展示出来。或者是特定用户才有权限看到的内容。;网络爬虫 网络爬虫的预备基础知识: 客户端-服务器CS模式(Client - Server); 网络爬虫的预备基础知识:HTTP 协议 HTTP协议基于CS模式,是一种请求响应的协议。 通常请求由客户机上的Web浏览器发出,而服务器上的Web网站收到请求,给出响应。 右边是一个访问Wiki百科的例子。包括Request, Response Header, Response body三个部分。 ;网络爬虫的预备基础知识: 其他网络协议 文件传输协议File Transfer Protocol(FTP) 邮件相关的邮局协议 Post Office Protocol Version 3(POP3) Simple Mail Transfer Protocol (SMTP) 安全的远程登录和访问的协议:Secure Shell (SSH),Telnet等。;网络爬虫 网络爬虫的技术原理(如右图所示): (1)调度器(Scheduler)输入种子URL (2)下载器(downloader)下载相关页面。 (3)下载器从下载的页面中,由挖网页解析器抽取关联的URLs,放入调度器的队列Queue,等待下一轮处理。 (4)下载器把下载得到的页面进行存储。 (5)调度器从增量的URLs???始新一轮任,重复步骤(1)-(4)。 (6)整个过程迭代,直到队列中的URLs列表为空,停止下载。;网络爬虫 网络爬虫实战的常用工具。 C/C++等语言一般用于百度等搜索引擎公司,用于设计通用的搜索引擎,但是由于实现比较复杂,不适合初学者。 Python相比较C/C++而言,具有简单易学,功能较全的特点。 Python的url和urllib:由URLs列表得到网页内容, Re库:通过正则表达式解析下载网页中的URLs,并放到队列Queue中。 整个爬虫框架Scrapy = Scrach(抓取)+Python ;网络爬虫:一个Scrapy的例子:抓取某网站的内容(1). ;网络爬虫:一个Scrapy的例子:抓取某网站的内容(2). ;网络爬虫与反爬虫技术: 为什么要反爬虫? (1)爬虫消耗了大量的服务器响应资源,使得正常的响应变慢。 (2)爬虫会盗用一部分网站不想公开的数据和信息。 反爬虫的主要技术有哪些? (1)基于Headers反爬虫:浏览器访问服务器,在Headers中有User-Agent-Referer字段。爬虫可以模拟浏览器绕过此限制。 (2)基于用户行为反爬虫:同一用户短时间大量访问某网站。 爬虫应对策略:使用代理IP或降低访问频率。 (3)动态页面反爬虫:模拟AJAX请求,或是模拟浏览器发送动态请求。 (4)Cookie限制:Cookie检验。 (5)验证码限制:拖动某个图片,或输入某个字母进行手动验证。;网络爬虫的法律与道德约束: 合理合法地获得网上的数据 (1)未经授权,不得擅自将有版权的数据公布,供人下载。 (2)不得擅自下载,或者暴力破解数据。 (3) 不得违规下载涉密数据。 (4) 遵循robots协议,那些页面能够被抓取,那些页面不能被抓取。;网络爬虫的法律与道德约束: 合理合法地获得网上的数据 (1)未经授权,不得擅自将有版权的数据公布,供人下载。 (2)不得擅自下载,或者暴力破解数据。 (3) 不得违规下载涉密数据。 (4) 遵循robots协议,那些页面能够被抓取,那些页面不能被抓取。;电子商务数据的采集: 数据的来源及分类: (1)电子商务数据平台的基础数据 (2)电商专业网站的研究数据 (3)基于电商媒体的数据 (4)基于电商评论的数据 电商平台的数据采集: (1)HTML

文档评论(0)

allen734901 + 关注
实名认证
文档贡献者

副教授持证人

知识共享

领域认证该用户于2024年11月14日上传了副教授

1亿VIP精品文档

相关文档