- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
用的是同一个教材,我们的课件有自己的创新和特色。
大数据分析与挖掘
大数据与数据挖掘
课程的背景……
2
中国大数据发展调查报告(2018年):
2017年中国大数据产业总体规模为4700亿元人民币,同比增长30%;预计2018-2020年增速将保持在30%以上。
大部分企业均已意识到数据分析对企业发展的重要性。
近四成的企业已经应用了大数据。与2016年相比上升4.5%
金融等领域大数据应用增加趋势较为明显。
企业应用大数据所带来的主要效果包括实现智能决策、提升运营效率和改善风险管理。
3
我们身边的大数据…
4
百度地图的定位数据
对大数据的初步认识(1)
除夕夜 哈尔滨迁徙地图
三十多年来,我国春运大军从1亿多人次到36亿人次
春运的最热现象是逆向过年,即老人们到孩子工作的地方过年。
6
对大数据的初步认识(2) 大数据与交通拥堵
7
一卡通大量使用,乘客出行的海量数据
预埋传感器,收集车流量、客流量信息
卫星地图数据对道路交通情况进行分析
出租车提供实时数据,了解主要道路的路况
智能手机使用地图应用,分析出实时的道路交通拥堵状况、出行流动趋势或特定区域的人员聚集程度
对大数据的初步认识(3) 大数据分析电信诈骗
根据2015年的统计数据,我国公民个人信息泄露数量已经达到40亿条左右。
刚取了通知书就有助学金诈骗电话
刚买了房就有无数装修公司的电话……
8
大数据的基本特征
9
用4个V来总结:Volume、Variety、Value和Velocity
数据体量大:从 TB级别,跃升到 PB
数据多样性:多为非结构型数据,如网络日志、视频、图片、地理位置信息
价值密度低:以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒
速度快:产生了大量的高速动态数据流,对数据流的实时分析与处理要求不断增加,数据处理的越及时,产生的价值越大。
10
大数据基本特征的第五个V:Veracity
数据的不确定性
数据挖掘:Data Mining
11
概念
从大量数据中抽取出(隐含的、有潜在用途的、未知的、人们可以理解的)有价值的信息和模式的过程。这些新发现的规律、模式、信息和概念具有潜在使用价值。
数据挖掘背后的 大数据思维
寻找特效药:
科学家们通常需要分析疾病产生的原因,寻找能够消除这些原因的物质,然后合成新药。是一个非常漫长的过程,而且费用非常高。
有了大数据,寻找特效药的方法就和过去有所不同了。
斯坦福大学医学院发现,原来用于治疗心脏病的某种药物对治疗某种胃病特别有效。
这种方法,实际上依靠的并非因果关系,而是一种强关联关系,即A药对B病有效。至于为什么有效,接下来3年的研究工作实际上就是在反过来寻找原因。
这种先有结果再反推原因的做法,和过去通过因果关系推导出结果的做法截然相反。无疑,这样的做法会比较快,当然,前提是有足够多的数据支持。
12
在大数据时代,我们能够得益于一种新的思维方法—从大量的数据中直接找到答案,即使不知道原因。
数据挖掘背后的 大数据思维
在数据挖掘的思想中,知识的学习是不需要通过具体问题的专业知识建模。
这其实是模拟了人的原始学习过程 --- 比如你要预测一个人跑100米要多久时间,可以根据之前了解的他这样体型的人跑100米用的多少时间做一个估计,而不会使用牛顿定律来算。
13
数据挖掘:Data Mining 一般流程
14
数据挖掘:Data Mining功能
关联规则
分类与预测
聚类分析
…
15
数据挖掘:Data Mining 关联规则
16
关联规则:零售业应用
几十年来,大型零售商塔吉特收集了海量的数据,记录了每一位经常光顾其各分店的顾客数据。
发现女客户会在怀孕四个月左右,大量购买无香味乳液。由此挖掘出25项与怀孕高度相关的商品,制作“怀孕预测”指数。
推算出预产期后,就能抢先一步,将孕妇装、婴儿床等折扣券寄给客户。
在接下来的几年中会根据婴儿的生长周期定期给这些顾客推送相关产品,使这些客户形成长期的忠诚度。
17
数据挖掘:Data Mining 分类与预测
18
数据挖掘分类与预测金融创新产品设计
19
数据挖掘:Data Mining 时间序列分析
20
数据挖掘:Data Mining 时间序列分析
时间序列预测即以时间序列所能反映的社会经济现象的发展过程和规律性,进行引伸外推,预测其发展趋势的方法,简单来说就是从已知事件测定未知事件。
时间序列数据的趋势变动可分为以下四点:
趋势性、周期性、随机性、综合性
预测时一般设法过滤除去不规则变动,突出反映趋势性和周期性变动。
21
数据挖掘:Data Mining 聚类分析
22
数据挖掘:Data Mining 社交网络、舆情分
文档评论(0)