- 1、本文档共13页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据-数据挖掘创新
大数据 vs 数据挖掘
大数据是什么
大数据(big data,mega data),或称巨量资料,指的是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据与云计算的关系就像一枚硬币的正反面一样密不可分。
HACE定理:大数据是巨大,无中心循环自生的,关系复杂且变化的。
1998:
Big Data and the Next Wave of …
2005:
Web 2.0
2006:
Google Analytic
2012:
Facebook IPO
大数据的纬度
数据
技术
创意
数据挖掘是什么
数据挖掘(英语:Data mining),又译为资料探勘、数据采矿。它是数据库知识发现(KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统和模式识别等诸多方法来实现上述目标。
各种来源数据
数据库或者数据仓库
数据挖掘引擎
模式评估
用户界面
知识库
数据挖掘能挖掘什么
概念性描述:用户画像;
频繁模式,关联:推荐系统;
分类;
聚类:寻找新的分类;
离群点分析:
演变分析,时间序列:预测未来。
易于理解,有效,有用,新的。
数据库技术
统计学
信息科学
可视化
机器学习
数据挖掘
DMQL:
与任务相关的数据;
要挖掘的知识类型;
用于挖掘过程的背景知识;
评估模式的兴趣度度量和阈值;
可视化发现模式的期望表示
CRISP-DM
大数据和数据挖掘区别
趋势分析
Data mining
Web 2.0
Big data
Mobile internet
图表来自Google Trends,虚线为预测部分
整体 vs 个体
关注个体间的关系,集体表现特性。
关注关联关系,注重实际应用,不追究因果关系。
个体间通常有很多的联系,交互。
关注个体的细节,数据由什么构成。关注因果关系,注重理论知识。
根据实验理论,个体间彼此是分离的。
多样 vs 抽样
关注一切可能获取的数据,考虑数据全部。
数据可以多次被使用,陈旧数据不会删除。
非结构化,无层次。
采用分布式部署。
数据一般人工收集而来,按照一定的规则进行抽样。
陈旧数据一般不使用,为节约空间一般会以别的形式存放。
数据是规范的,有层次。
一般是单机。
简单算法 vs 专家参与
对先验知识的依赖性低,基本不需要人工参与。
对大量数据实施简单算法。
能自动调整适应。
严重依赖于先验知识和数据挖掘者的经验。
算法复杂:概率算法,神经网络等。
会出现滚雪球的灾难。
容错 vs 精确
大数据下,错误会抵消。
允许一些数据项为空。
错误的数据也是有价值的。
使用统计方法,去掉错误数据。
对空的数据,进行填补或者抛弃。
抛弃错误数据,不处理。
快速 vs 固定
数据高速,实时增加。
要么现在开始,要不就不要开始。
这一秒有效,下一秒就无效。
针对一个固定的数据集。
可以有长时间的准备和挖掘过程。
知识长期可用。
谢谢大家看我装逼
文档评论(0)