商务数据分析基础 课件 第二章 商务数据分析方法和工具.pptx

商务数据分析基础 课件 第二章 商务数据分析方法和工具.pptx

  1. 1、本文档共83页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第二章商务数据分析方法和工具;目录;1;1.1描述性分析;高效的可视化展现,一方面是说,做这个报告的速度要快,即问即答,不能当某人想知道今天的情况怎么样时,三天之后才有答案;另一方面是说,这个报告以“模板”的形式存在,数据变了,报告也会随之变动,什么时候打开,什么时候都是最新的。

描述性分析是所有分析形式中最常见的。在业务中,它为分析人员提供了业务中关键指标和措施的视图,如公司每月的收支表。类似地,分析师可以获得大量客户的数据。了解客户的人口统计信息(如我们的客户的30%是个体经营者)将被归类为“描述性分析”,利用有效的可视化工具可以更好地呈现描述性分析的信息。;1.2诊断性分析;1.3预测性分析;预测分析是关于预测的。无论是预测将来发生事件的可能性,还是预测可量化的数值,抑或是估计可能发生事件的时间点,这些都是通过预测模型完成的。

预测模型通常利用各种可变数据进行预测。数据的变异性与预测结果密切相关(例如,年龄越大的人,对心脏病发作的敏感程度越高———我们会说年龄与心脏病发作风险呈线性相关),然后将这些数据一起编译成分数或预测。

在充满不确定性的环境中,预测能够帮助做出更好的决定。预测模型也是许多领域中正在使用的重要方法。;2;2.1数据采集工具;(1)八爪鱼采集器的功能:

1)云采集:5000台云服务器,24×7小时高效稳定不间断采集,结合API可无缝对接内

部系统,定期同步爬取数据。

2)智能防封:自动破解多种验证码,提供代理IP池,结合UA切换,可有效突破封锁,顺利采集数据。

3)全网适用:眼见即可采,不管是文字图片,还是贴吧论坛,支持所有业务渠道的数据爬取,满足各种采集需求。

4)海量模板:内置数百个网站数据源,全面覆盖多个行业,只需简单设置,就可快速准确获取数据。

5)简单易用:无须再学爬虫编程技术,简单三步就可以轻松抓取网页数据,支持多种格式一键导出,快速导入数据库。

6)稳定高效:有分布式云集群服务器和多用户协作管理平台的支撑,可灵活调度任务,顺利爬取海量数据。;爬取方法:以爬取京东众筹为例进行讲解。

步骤一:打开八爪??采集器,如图21所示,选择“自定义采集”。;步骤二:将网址输入“网址”框内,单击“保存网址”按钮,如图22所示。;步骤三:在出现的网址内容中单击“下一页”按钮,如图2-3所示。在弹出的“操作提示”对话框中,单击“循环点击下一页”选项,如图2-4所示。;步骤四:选中网页第一行第一个图片,结果如图2-5所示。在弹出的“操作提示”对话框中单击“选中全部”选项,结果如图2-6所示。在再次弹出的“操作提示”对话框中单击“循环点击每个图片”,结果如图2-7所示。;步骤五:在出现的网页中选取所要搜集的信息。

1)选择价格:单击“价格”,在弹出的“操作提示”对话框中单击“采集该元素的文本”,如图2-8所示。;2)选择当前进度:单击“当前进度”,在弹出的“操作提示”对话框中单击“采集该元素的文本”,如图2-9所示,依此类推。;步骤六:打开流程界面,将所搜集的数据进行命名,单击“确定”按钮,然后单击“开始采集”按钮,接着单击“启动本地采集”按钮。

1)打开流程界面,将所搜集的数据进行命名,单击“确定”按钮,然后并单击“开始采集”按钮,如图2-10所示。;2)单击“启动本地采集”按钮,如图211所示。;步骤七:结果呈现,如图2-12所示。;2.Python(爬虫)

爬虫的概念

如果我们把互联网比做一张大的蜘蛛网,数据便存放于蜘蛛网的各个节点,而爬虫就是一只小蜘蛛,沿着网络抓取自己的猎物(数据)。爬虫指的是向网站发起请求,获取资源后分析并提取有用数据的程序;从技术层面来说,就是通过程序模拟浏览器请求站点的行为,把站点返回的HTML代码、JSON数据、二进制数据(图片、视频)爬到本地,进而提取自己需要的数据,存放起来使用。

。;(2)爬虫基本流程

爬虫流程图如图2-13所示。;1)发送请求。使用http库向目标站点发起请求,即发送一个Request。请求包含请求头、请求体等。请求模块的缺陷:不能执行JS和CSS代码。

2)获取响应内容。如果服务器能正常响应,则会得到一个

文档评论(0)

balala11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档