电子商务大数据分析教学课件2-数据采集和预处理.pptxVIP

下载本文档

103
0
约4.23千字
约 42页
2022-03-10 发布于广东
举报
版权申诉

电子商务大数据分析教学课件2-数据采集和预处理.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

电子商务大数据分析;为什么要有数据采集和预处理？;数据从哪里来？;怎样采集数据？;怎样采集数据？;怎样采集数据？;怎样采集数据？;怎样采集数据？;怎样采集数据？;网络爬虫为什么要使用网络爬虫？(1)网络爬虫，搜索引擎背后的基础技术。百度和谷歌搜索显示的页面，都源自于网络爬虫每天不停的工作。(2)网络爬虫可以一次下载大量网页。(3)网络爬虫和各种网站开放的API有什么不同？多源异构的互联网开放数据经过预处理，数据融合以后的有价值的数据。;网络爬虫网络爬虫(Web Crawler)的定义：;网络爬虫网络爬虫的分类：(1)全网爬虫:搜集整个互利网的网页(百度，谷歌，搜狗等)(2)主题网络爬虫: 特定需求的爬虫，比如八爪鱼 (3)增量式网络爬虫:不抓取重复的数据，保证新数据和旧数据的唯一性。 (4)深层网络爬虫: 深层网络爬虫对应深层网络数据。表层网络数据：网页显示的内容。深层网络数据：藏在网页背后的数据库的内容，并没有完全通过网页展示出来。或者是特定用户才有权限看到的内容。;网络爬虫网络爬虫的预备基础知识：客户端-服务器CS模式(Client - Server);网络爬虫的预备基础知识：HTTP 协议HTTP协议基于CS模式，是一种请求响应的协议。通常请求由客户机上的Web浏览器发出，而服务器上的Web网站收到请求，给出响应。右边是一个访问Wiki百科的例子。包括Request, Response Header, Response body三个部分。;网络爬虫的预备基础知识：其他网络协议文件传输协议File Transfer Protocol(FTP)邮件相关的邮局协议 Post Office Protocol Version 3(POP3)Simple Mail Transfer Protocol (SMTP)安全的远程登录和访问的协议：Secure Shell (SSH)，Telnet等。;网络爬虫网络爬虫的技术原理（如右图所示）：(1)调度器(Scheduler)输入种子URL(2)下载器（downloader）下载相关页面。(3)下载器从下载的页面中，由挖网页解析器抽取关联的URLs,放入调度器的队列Queue,等待下一轮处理。(4)下载器把下载得到的页面进行存储。(5)调度器从增量的URLs???始新一轮任，重复步骤(1)-(4)。(6)整个过程迭代，直到队列中的URLs列表为空，停止下载。;网络爬虫网络爬虫实战的常用工具。C/C++等语言一般用于百度等搜索引擎公司，用于设计通用的搜索引擎，但是由于实现比较复杂，不适合初学者。Python相比较C/C++而言，具有简单易学，功能较全的特点。Python的url和urllib：由URLs列表得到网页内容,Re库：通过正则表达式解析下载网页中的URLs，并放到队列Queue中。整个爬虫框架Scrapy = Scrach(抓取)+Python;网络爬虫:一个Scrapy的例子：抓取某网站的内容(1).;网络爬虫:一个Scrapy的例子：抓取某网站的内容(2).;网络爬虫与反爬虫技术：为什么要反爬虫？(1)爬虫消耗了大量的服务器响应资源，使得正常的响应变慢。(2)爬虫会盗用一部分网站不想公开的数据和信息。反爬虫的主要技术有哪些？(1)基于Headers反爬虫：浏览器访问服务器，在Headers中有User-Agent-Referer字段。爬虫可以模拟浏览器绕过此限制。(2)基于用户行为反爬虫:同一用户短时间大量访问某网站。爬虫应对策略:使用代理IP或降低访问频率。(3)动态页面反爬虫:模拟AJAX请求,或是模拟浏览器发送动态请求。(4)Cookie限制:Cookie检验。(5)验证码限制：拖动某个图片，或输入某个字母进行手动验证。;网络爬虫的法律与道德约束：合理合法地获得网上的数据(1)未经授权，不得擅自将有版权的数据公布，供人下载。(2)不得擅自下载，或者暴力破解数据。(3) 不得违规下载涉密数据。(4) 遵循robots协议，那些页面能够被抓取，那些页面不能被抓取。;网络爬虫的法律与道德约束：合理合法地获得网上的数据(1)未经授权，不得擅自将有版权的数据公布，供人下载。(2)不得擅自下载，或者暴力破解数据。(3) 不得违规下载涉密数据。(4) 遵循robots协议，那些页面能够被抓取，那些页面不能被抓取。;电子商务数据的采集：数据的来源及分类:(1)电子商务数据平台的基础数据(2)电商专业网站的研究数据(3)基于电商媒体的数据(4)基于电商评论的数据电商平台的数据采集:(1)HTML

您可能关注的文档

文档评论（0）

allen734901 + 关注: 实名认证

文档贡献者

副教授持证人

知识共享

咨询Ta 进入空间

领域认证该用户于2024年11月14日上传了副教授

1亿VIP精品文档

更多 >

电子商务大数据分析教学课件2-数据采集和预处理.pptxVIP