数据挖掘第一章(双).ppt

  1. 1、本文档共50页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘第一章(双)

数据挖掘 廖志芳 基本信息 总学时: 24学时 上课:16学时 上机:8学时 考试方式:2学时, 上机检查结果+上机报告 课程主要内容 绪论 数据预处理 聚类分析 分类和预测 关联规则挖掘 概念描述:特征化和区分 ? 参考教材 JiaweiHan and MichelineKamber. Data Mining: Concepts and Techniques.Morgan Kaufmann Publishers, 2001. 范明、孟小峰等译,数据挖掘概念与技术,机械工业出版社,2001年8月 相关学术论文 其它参考书 数据挖掘原理, David Hand, Heikki Mannila和Padhraic Smyth著,机械工业出版社 (2003) 数据挖掘-概念、模型、方法和算法, MehmedKantardzic,清华大学出版社 第一讲 绪论 什么是数据挖掘? 数据挖掘的步骤 数据挖掘的主要功能 概念/类描述:特征化和区分 关联分析 分类和预测 聚类分析 孤立点分析 演变分析 在何种数据上进行数据挖掘 数据挖掘技术的前景 背景 科技的进步,特别是信息产业的发展,把我们带入了一个崭新的信息时代。 数据库中存储的数据量急剧增大。 面对海量数据库和大量繁杂信息,如何才能从中提取有价值的知识,进一步提高信息的利用率,引发了一个新的研究方向:基于数据库的知识发现(Knowledge Discovery in Database)以及相应的数据挖掘(Data Mining)理论和技术的研究。 KDD的出现 基于数据库的知识发现(KDD)一词首次出现在1989年举行的第十一届AAAI学术会议上。 1995年在加拿大蒙特利尔召开了第一届KDD国际学术会议(KDD’95)。 由Kluwers Publishers出版,1997年创刊的《Knowledge Discovery and Data Mining》是该领域中的第一本学术刊物。 KDD已经成为人工智能研究热点 目前,关于KDD的研究工作已经被众多领域所关注,如过程控制、信息管理、商业、医疗、金融等领域。 作为大规模数据库中先进的数据分析工具,KDD的研究已经成为数据库及人工智能领域研究的一个热点。 数据挖掘的案例:“啤酒”和“尿布” 一则广为流传的案例:啤酒和尿布的故事 美国加州某个超市连锁店发现: 在下班后前来购买婴儿尿布的顾客多数是男性,他们往往也同时购买啤酒。 ?? 处理:重新布置了货架,啤酒类商品、婴儿尿布、土豆片之类的佐酒小食品、男士们日常生活用品就近布置。 ?? 结果:上述几种商品的销量几乎马上成倍增长。 数据、信息、知识、理解和先知 系统学专家Russell Ackoff博士认为人类大脑包涵的内容,分为五类: 数据(Data): 符号(Symbols )的集合,未加工、较为原始的形态 信息(Information): 数据经过处理后,有意义的,具有利用价值的,能够回答4W为(“who”, “what”, “where”, and “when”)等问题 知识(Knowledge): 实践中产生、经过实践检验的一种客观规律。(信息经过加工和改造成为知识),能够回答“how”的问题 理解(Understanding): “why”的正确评价?? 先知(Wisdom): 理解的进一步提升 数据、信息、知识和先知的关系 什么是数据挖掘? 从大量数据中提取或发现(挖掘)知识的过程。 从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。 数据集:一组事实F,如关系数据库中的记录 模式:一个用语言L表示的一个表达式E,它可以用来描述数据集F的一个子集FE ,E作为一个模式要求它比对数据子集FE的枚举要简单(所用的描述信息量要少)。 过程:需要多阶段的处理,涉及数据准备、模式搜索、知识评价以及反复的修改求精。 什么是数据挖掘? 从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。 非平凡(的过程):有一定的智能性、自动性(仅仅给出所有数据之和不能算做一个发现过程)。 有效性:所发现的模式对新的数据仍保持一定的可信度。 新颖性:所发现的模式应该是新的。 潜在有用性:所发现的模式将来有实际的效用。 最终可理解性:能被用户理解,如:简洁性 有趣性:有效性、新颖性、潜在有用性、最终可理解性的综合。 数据挖掘: 多个学科的融合 数据挖掘的称谓 数据挖掘涉及多学科领域,有多个术语名称(可能其内容的侧重点略有差异)。 数据挖掘(data mining) 数据库中的知识发现(KDD, knowledge discovery in datab

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档