数据挖掘绪论..pptVIP

下载本文档

6
0
约4.17千字
约 34页
2016-12-19 发布于重庆
举报
版权申诉

数据挖掘绪论..ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第1章绪论内容简介为何进行数据挖掘面临的问题信息量过大，超过了人们掌握、消化的能力一些信息真伪难辨，难以正确运用信息组织形式的不一致性，增加信息处理难度新的认识隐藏在数据之后更深层次、更重要的信息能够描述数据的整体特征，可以预测发展趋势，在决策中具有重要价值。数据挖掘技术发展里程面对海量数据库和大量繁杂信息，如何从中提取有价值的知识，提高信息的利用率，引发了一个新的研究方向：基于数据库的知识发现KDD（Knowledge Discovery in Database）以及相应的数据挖掘（Data Mining）理论和技术的研究。 1989年第十一届AAAI学术会议上首次出现KDD一词其后，在VLDB（Very Large Database）及其他与数据库领域相关的国际学术会议上也举行了KDD专题研讨会。 1995年召开第一届KDD国际学术会议（KDD’95）之后，每年召开一次这样的会议。 1997年《Knowledge Discovery and Data Mining》该领域的第一本学术刊物，由Kluwers Publishers出版发行。 1999年召开第三届亚太地区知识发现和数据挖掘国际会议这次北京会议将国内数据挖掘的研究推向新的高潮。随后，KDD的研究工作蓬勃展开 KDD的定义公认的定义是1996年Fayyad等人提出的。所谓基于数据库的知识发现（KDD）是指从大量数据中提取有效的、新颖的、潜在有用的、最终可被理解的模式的非平凡过程。 The nontrivial process of identifying valid, novel, useful and ultimately understandable patterns in data. KDD中的术语数据：指一个有关事实F的集合，用以描述事物的基本信息。模式：语言L中的表达式E，E描述的数据是集合F的一个子集。表明集合FE中的数据具有特性E。作为一个模式，E比枚举数据子集FE简单。非平凡过程：指具有一定程度的智能性和自动性，不仅仅是简单地数值统计和计算。有效性(可信性)：从数据中发现的模式必须有一定的可信度，函数C将表达式映射到度量空间MC ，c表示模式E的可信度，c = C(E, F)。其中E?L，E所描述的数据集合FE ?F。新颖性：用一个函数来表示模式的新颖程度N(E, F)，函数值是逻辑值或是对模式E的新颖程度的一个判断数值。新颖性从两个方面衡量：当前得到的数据与以前的数据或期望得到的数据之间比较对比发现的模式与已有模式的关系来判断潜在作用：指提取出的模式将来会实际运用，通过函数U把L中的表达式映射到测量空间MU ，u表示模式E的有作用程度，u=U(E, F)。可理解性：发现的模式应该能够被用户理解，这主要体现在简洁性上。用s表示模式E的简单度(可理解度)，s=S(E, F)。 KDD的过程 KDD过程数据准备了解KDD应用领域的有关情况。包括熟悉相关的背景知识，搞清用户需求。数据选取根据用户的需要从原始数据库中选取相关数据或样本。数据预处理检查数据的完整性及一致性，消除噪声，滤除与数据挖掘无关的冗余数据，填充丢失的数据。数据变换通过投影或利用数据库的其他操作减少数据量。确定目标根据用户的要求，确定KDD要发现的知识类型。选择算法选择合适的知识发现算法，包括选取合适的模型和参数。数据挖掘运用前面选择的算法，从数据库中提取用户感兴趣的知识，并以一定的方式表示出来。模式解释对在数据挖掘步骤中发现的模式（知识）进行解释。经过用户或机器评估后，剔除冗余或无关的模式。知识评价将发现的知识以用户能理解的方式呈现给用户。这期间包含对知识一致性的检查，以确信发现的知识不会与以前发现的知识相抵触。数据挖掘技术发展历程数据与系统的特征数据结构与类型事务数据库由文件构成，每条记录代表一个事务。典型的事务包含唯一的事务标识（trans_ID），多个项目组成一个事务。事务数据库可以用额外附加的关联表记录其他信息。面向对象数据库基于面向对象程序设计的范例，每一个实体作为一个对象。与对象相关的程序和数据封装在一个单元中。对象通过消息与其他对象或数据库系统进行通信。对象机制提供一种模式获取消息并做出反应的手段。数据结构与类型数据结构与类型数据库系统分类关系数据库由表组成，每个表有一个唯一的表名。属性（列或域）集合组成表结构，表中数据按行存放，每