第一章:绪论 《数据挖掘与知识发现》 教学课件.pptVIP

第一章:绪论 《数据挖掘与知识发现》 教学课件.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第一章:绪论 《数据挖掘与知识发现》 教学课件

2003-11-1 高等教育出版社 第一章:绪论 1.1 引言 1.2 KDD与数据挖掘 1.3 数据挖掘的对象与环境 1.4 数据挖掘方法与相关领域 1.5 KDD系统与应用 本章小结 第一章:绪论 1.1 引言 1.2 KDD与数据挖掘 1.3 数据挖掘的对象与环境 1.4 数据挖掘方法与相关领域 1.5 KDD系统与应用 本章小结 背景 科技的进步,特别是信息产业的发展,把我们带入了一个崭新的信息时代。 数据库中存储的数据量急剧增大。 面对海量数据库和大量繁杂信息,如何才能从中提取有价值的知识,进一步提高信息的利用率,引发了一个新的研究方向:基于数据库的知识发现(Knowledge Discovery in Database)以及相应的数据挖掘(Data Mining)理论和技术的研究。 KDD的出现 基于数据库的知识发现(KDD)一词首次出现在1989年举行的第十一届AAAI学术会议上。 1995年在加拿大蒙特利尔召开了第一届KDD国际学术会议(KDD’95)。 由Kluwers Publishers出版,1997年创刊的《Knowledge Discovery and Data Mining》是该领域中的第一本学术刊物。 KDD已经成为人工智能研究热点 目前,关于KDD的研究工作已经被众多领域所关注,如过程控制、信息管理、商业、医疗、金融等领域。 作为大规模数据库中先进的数据分析工具,KDD的研究已经成为数据库及人工智能领域研究的一个热点。 第一章:绪论 1.1 引言 1.2 KDD与数据挖掘 1.3 数据挖掘的对象与环境 1.4 数据挖掘方法与相关领域 1.5 KDD系统与应用 本章小结 KDD的定义 人们给KDD下过很多定义,内涵也各不相同,目前公认的定义是由Fayyad等人提出的。 所谓基于数据库的知识发现(KDD)是指从大量数据中提取有效的、新颖的、潜在有用的、最终可被理解的模式的非平凡过程。 KDD过程 KDD是一个反复迭代的人机交互处理过程。该过程需要经历多个步骤,并且很多决策需要由用户提供。 从宏观上看,KDD过程主要由三个部分组成,即数据整理、数据挖掘和结果的解释评估。 KDD过程 KDD过程(续) 1.数据准备:了解KDD应用领域的有关情况。包括熟悉相关的背景知识,搞清用户需求。 2.数据选取:数据选取的目的是确定目标数据,根据用户的需要从原始数据库中选取相关数据或样本。在此过程中,将利用一些数据库操作对数据库进行相关处理。 KDD过程(续) 3.数据预处理:对步骤2中选出的数据进行再处理,检查数据的完整性及数据一致性,消除噪声,滤除与数据挖掘无关的冗余数据,根据时间序列和已知的变化情况,利用统计等方法填充丢失的数据。 4.数据变换:根据知识发现的任务对经过预处理的数据进行再处理,主要是通过投影或利用数据库的其他操作减少数据量。 KDD过程(续) 5.确定KDD目标:根据用户的要求,确定KDD要发现的知识类型。因为对KDD的不同要求会在具体的知识发现过程中采用不同的知识发现算法。如分类、总结、关联规则、聚类等。 6.选择算法:根据确定的任务选择合适的知识发现算法,包括选取合适的模型和参数。 KDD过程(续) 7.数据挖掘:这是整个KDD过程中很重要的一个步骤。运用前面选择的算法,从数据库中提取用户感兴趣的知识,并以一定的方式表示出来(如产生式规则等)是数据挖掘的目的。 8.模式解释:对在数据挖掘步骤中发现的模式(知识)进行解释。经过用户或机器评估后,可能会发现这些模式中存在冗余或无关的模式,此时应该将其剔除。如果模式不能满足用户的要求,就需要返回到前面的某些处理步骤中反复提取。 KDD过程(续) 9.知识评价:将发现的知识以用户能了解的方式呈现给用户。 在上述步骤中,数据挖掘占据非常重要的地位,它主要是利用某些特定的知识发现算法,在一定的运算效率范围内,从数据中发现出有关知识,决定了整个KDD过程的效果与效率。 第一章:绪论 1.1 引言 1.2 KDD与数据挖掘 1.3 数据挖掘的对象与环境 1.4 数据挖掘方法与相关领域 1.5 KDD系统与应用 本章小结 数据与系统特征 KDD和数据挖掘可以应用在很多领域中,它们具有如下一些公共特征: 海量数据集 数据利用非常不足 在开发知识发现系统时,领域专家对该领域的熟悉程度至关重要 最终用户专门知识缺乏 有效的知识发现系统 为使知识发现系统更加有效,有几个软、硬件问题需要强调: 为使数据服务更加详尽,必须研究基础的体系结构、算法和数据结构。 解决存储管理中的新问题,开发有效的存储机制 。 高层次的查询语言成为重要的研究课题 。 描述多维对象的可视化工具在知识表示中将起

文档评论(0)

qiwqpu54 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档