数据挖掘绪论..pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第1章 绪论 内容简介 为何进行数据挖掘 面临的问题 信息量过大,超过了人们掌握、消化的能力 一些信息真伪难辨,难以正确运用 信息组织形式的不一致性,增加信息处理难度 新的认识 隐藏在数据之后更深层次、更重要的信息能够描述数据的整体特征,可以预测发展趋势,在决策中具有重要价值。 数据挖掘技术发展里程 面对海量数据库和大量繁杂信息,如何从中提取有价值的知识,提高信息的利用率,引发了一个新的研究方向:基于数据库的知识发现KDD(Knowledge Discovery in Database)以及相应的数据挖掘(Data Mining)理论和技术的研究。 1989年第十一届AAAI学术会议上首次出现KDD一词 其后,在VLDB(Very Large Database)及其他与数据库领域相关的国际学术会议上也举行了KDD专题研讨会。 1995年召开第一届KDD国际学术会议(KDD’95) 之后,每年召开一次这样的会议。 1997年《Knowledge Discovery and Data Mining》 该领域的第一本学术刊物,由Kluwers Publishers出版发行。 1999年召开第三届亚太地区知识发现和数据挖掘国际会议 这次北京会议将国内数据挖掘的研究推向新的高潮。 随后,KDD的研究工作蓬勃展开 KDD的定义 公认的定义是1996年Fayyad等人提出的。 所谓基于数据库的知识发现(KDD)是指从大量数据中提取有效的、新颖的、潜在有用的、最终可被理解的模式的非平凡过程。 The nontrivial process of identifying valid, novel, useful and ultimately understandable patterns in data. KDD中的术语 数据:指一个有关事实F的集合,用以描述事物的基本信息。 模式:语言L中的表达式E,E描述的数据是集合F的一个子集。表明集合FE中的数据具有特性E。作为一个模式,E比枚举数据子集FE简单。 非平凡过程:指具有一定程度的智能性和自动性,不仅仅是简单地数值统计和计算。 有效性(可信性):从数据中发现的模式必须有一定的可信度,函数C将表达式映射到度量空间MC ,c表示模式E的可信度,c = C(E, F)。其中E?L,E所描述的数据集合FE ?F。 新颖性:用一个函数来表示模式的新颖程度N(E, F),函数值是逻辑值或是对模式E的新颖程度的一个判断数值。新颖性从两个方面衡量: 当前得到的数据与以前的数据或期望得到的数据之间比较 对比发现的模式与已有模式的关系来判断 潜在作用:指提取出的模式将来会实际运用,通过函数U把L中的表达式映射到测量空间MU ,u表示模式E的有作用程度,u=U(E, F)。 可理解性:发现的模式应该能够被用户理解,这主要体现在简洁性上。用s表示模式E的简单度(可理解度),s=S(E, F)。 KDD的过程 KDD过程 数据准备 了解KDD应用领域的有关情况。包括熟悉相关的背景知识,搞清用户需求。 数据选取 根据用户的需要从原始数据库中选取相关数据或样本。 数据预处理 检查数据的完整性及一致性,消除噪声,滤除与数据挖掘无关的冗余数据,填充丢失的数据。 数据变换 通过投影或利用数据库的其他操作减少数据量。 确定目标 根据用户的要求,确定KDD要发现的知识类型。 选择算法 选择合适的知识发现算法,包括选取合适的模型和参数。 数据挖掘 运用前面选择的算法,从数据库中提取用户感兴趣的知识,并以一定的方式表示出来。 模式解释 对在数据挖掘步骤中发现的模式(知识)进行解释。经过用户或机器评估后,剔除冗余或无关的模式。 知识评价 将发现的知识以用户能理解的方式呈现给用户。这期间包含对知识一致性的检查,以确信发现的知识不会与以前发现的知识相抵触。 数据挖掘技术发展历程 数据与系统的特征 数据结构与类型 事务数据库 由文件构成,每条记录代表一个事务。典型的事务包含唯一的事务标识(trans_ID),多个项目组成一个事务。 事务数据库可以用额外附加的关联表记录其他信息。 面向对象数据库 基于面向对象程序设计的范例,每一个实体作为一个对象。 与对象相关的程序和数据封装在一个单元中。 对象通过消息与其他对象或数据库系统进行通信。 对象机制提供一种模式获取消息并做出反应的手段。 数据结构与类型 数据结构与类型 数据库系统分类 关系数据库 由表组成,每个表有一个唯一的表名。属性(列或域)集合组成表结构,表中数据按行存放,每

文档评论(0)

liudao + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档