数据挖掘概述.pptVIP

  1. 1、本文档共43页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第六章 数据挖掘概述 本章内容 数据挖掘的由来 数据挖掘的定义 数据挖掘的基本概念 数据挖掘的主要功能 数据挖掘模型和实现流程 数据挖掘应用 数据挖掘的由来 网络之后的下一个技术热点 数据爆炸但知识贫乏 支持数据挖掘技术的基础 从商业数据到商业信息的进化 网络之后的下一个技术热点 网络时代面临的信息问题: 信息过量,难以消化; 信息真假难以辨识; 信息安全难以保证; 信息形式不一致,难以统一处理。 “要学会抛弃信息” 数据爆炸但知识贫乏 数据库的容量已达上万亿水平(T)--1,000,000,000,000个字节 全球信息量以惊人的速度急剧增长--据估计,每二十个月将增加一倍。 许多组织机构的IT系统中都收集了大量的数据 支持数据挖掘技术的基础 激发了数据挖掘的开发、应用和研究的兴趣的四个主要技术理由: 超大规模数据库的出现,例如商业数据仓库和计算机自动收集的数据记录; 强大的多处理器计算机。例如更快和更大的计算能力和并行体系结构; 海量数据搜索,对巨大量数据的快速访问; 数据挖掘算法。 从商业数据到商业信息的进化 数据挖掘(Data Mining)的定义 数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。〔技术角度的定义〕 数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证己知的规律性,并进一步将其模型化的有效方法。〔商业角度的定义〕 数据挖掘相近的同义词包括:数据融合、数据分析和决策支持等。 数据挖掘与其他科学的关系 实施数据挖掘的目的 不再是单纯为了研究,更主要的是为商业决策提供真正有价值的信息,进而获得利润。 所有企业面临的一个共同问题是:企业数据量非常大,而其中真正有价值的信息却很少,因此需要从大量的数据中经过深层分析,获得有利于商业运作、提高竞争力的信息,就像从矿石中淘金一样,数据挖掘也由此而得名。 数据挖掘与传统数据分析方法区别 数据挖掘的数据源与以前相比有了显著的改变; 数据是海量的; 数据有噪声; 数据可能是非结构化的; 传统的数据分析方法基于假设驱动的:一般都是先给出一个假设然后通过数据验证 数据挖掘在一定意义上是基于发现驱动的:模式都是通过大量的搜索工作从数据中自动提取出来 。即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。 数据挖掘和数据仓库 数据挖掘和OLAP 完全不同的工具,基于的技术也大相径庭 OLAP基于用户假设。 what happened〔查询和报表工具是告诉你数据库中都有什么〕 what next〔 OLAP更进一步告诉你下一步会怎么样〕 what if〔如果我采取这样的措施又会怎么样〕 数据挖掘本质上是一个归纳的过程,不是用于验证某个假定的模式(模型)的正确性,而是在数据库中自己寻找模型。 数据挖掘和OLAP有一定的互补性。 基本概念 数据:是指一个有关事实F的集合(如学生档案数据库中有关学生基本情况的各条记录),用来描述事物有关方面的信息。一般而言,这些数据都是准确无误的。 信息: 是事物运动的状态和状态变化的方式。 知识 人们实践经验的结晶且为新的实践所证实的;是关于事物运动的状态和状态变化的规律;是对信息加工提炼所获得的抽象化产物。 知识的形式可能是模式、关联、变化、异常以及其他有意义的结构。 主要功能 1. 概念/类别描述(Concept/Class Description) 概念/类别描述是指对数据集做一个简洁的总体性描述并/或描述它与某一对照数据集的差别。 例1:我们收集移动电话费月消费额超出1000元的客户资料,然后利用数据挖掘进行分析,获得这类客户的总体性描述:35-50岁,有工作,月收入5000元以上,拥有良好的信用度…; 主要功能 例2:对比移动电话费月消费额超出1000元的客户群与移动电话费月消费额低于100元的客户群。 利用数据挖掘可作出如下描述:移动电话月消费额超出1000元的客户80%以上年龄在35-50岁之间,且月收入5000元以上;而移动电话月消费额低于100元的客户60%以上要么年龄过大要么年龄过小,且月收入2000元以下。 主要功能 2. 关联分析(Association Analysis) 从一个项目集中发现关联规则,该规则显示了给定数据集中经常一起出现的属性-值条件元组。 例如:关联规则X=Y所表达的含义是满足X的数据库元组很可能满足Y。关联分析在交易数据分析、支持定

文档评论(0)

ki66588 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档