第5章数据挖掘-1综述.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘 数据挖掘的产生 随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏”的现象。 数据挖掘的案例:“啤酒”和“尿布” 一则广为流传的案例:啤酒和尿布的故事 美国加州某个超市连锁店发现: 在下班后前来购买婴儿尿布的顾客多数是男性,他们往往也同时购买啤酒。 ?? 处理:重新布置了货架,啤酒类商品、婴儿尿布、土豆片之类的佐酒小食品、男士们日常生活用品就近布置。 ?? 结果:上述几种商品的销量几乎马上成倍增长。 什么是数据挖掘? 从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。 非平凡(的过程):有一定的智能性、自动性(仅仅给出所有数据之和不能算做一个发现过程)。 有效性:所发现的模式对新的数据仍保持一定的可信度。 新颖性:所发现的模式应该是新的。 潜在有用性:所发现的模式将来有实际的效用。 最终可理解性:能被用户理解,如:简洁性 有趣性:有效性、新颖性、潜在有用性、最终可理解性的综合。 数据挖掘是多学科的交叉 数据挖掘与数据仓库的关系 数据挖掘是数据仓库发展的必然结果 数据仓库为数据挖掘提供应用基础 数据挖掘也不必非得建立一个数据仓库 从数据仓库中直接进行数据挖掘有许多好处。 数据挖掘和OLAP OLAP分析过程在本质上是一个演绎推理的过程,是决策支持领域的一部分。传统的查询和报表工具是告诉你数据库中都有什么(what happened),OLAP则更进一步告诉你下一步会怎么样(What next)和如果采取这样的措施又会怎么样(What if)。用户首先建立一个假设,然后用OLAP检索数据库来验证这个假设是否正确。 数据挖掘在本质上是一个归纳推理的过程,与OLAP不同的地方是,数据挖掘不是用于验证某个假定的模式(模型)的正确性,而是在数据库中自己寻找模型。 数据挖掘和OLAP具有一定的互补性。在利用数据挖掘出来的结论采取行动之前,OLAP工具能起辅助决策作用。而且在知识发现的早期阶段,OLAP工具用来探索数据,找到哪些是对一个问题比较重要的变量,发现异常数据和互相影响的变量。这都有助于更好地理解数据,加快知识发现的过程。 数据挖掘的步骤 数据准备? 数据选择:目标数据 数据预处理:消除噪声、不一致、冗余等 数据变换:连续数据离散化、数据转化 数据归约:特征选择或抽取 数据挖掘算法的选择. 首先要明确任务,如数据总结、分类、聚类、关联规则发现、序列模式发现等。 考虑用户的知识需求(得到描述性的知识、预测型的知识)。 根据具体的数据集合,选取有效的挖掘算法。 数据挖掘的步骤 结果的解释评估(interpretation and evaluation) 对挖掘出来的结果(模式),经用户或机器评价,剔除冗余或无关的模式。 模式不满足用户需求时,返回到某一步,重新挖掘。如:重新选择数据、采用新的变换方法、设定新的数据挖掘参数,或者换一种挖掘算法(如分类方法,不同的方法对不同的数据有不同的效果)。 挖掘的结果是面向用户的,对挖掘结果进行可视化或者转化为用户易于理解的形式表示。 ?评注 影响挖掘结果质量的因素:采用的算法、数据本身的质量与数量 数据挖掘的过程是一个不断反馈的过程 可视化在数据挖掘过程的各个阶段都扮演着重要角色,如用散点图或直方图等统计可视化技术来显示有关数据,以期对数据有一个初步的了解。 常用的数据挖掘方法 目前一般常用的数据挖掘方法很多,它们大多属于数学统计方法或人工智能中的机器学习算法,以及人工神经网络/遗传算法。 概念/类描述 关联规则挖掘 序列模式分析 分类分析 聚类分析 异常点检测 概念/类描述 概念描述(concept description):对含有大量数据的数据集合进行概述性的总结并获得简明、准确的描述。 如一个大学中讲师、副教授的情况 讲师:75% (papers3) and (teaching courses2) 副教授:66% (papers=3) and (teaching courses=2) 概念描述与数据泛化密切相关 允许数据集在多个抽象层泛化,便于用户考察数据的一般行为 方法: OLAP方法 面向属性的归纳 OLAP方法 在数据立方体上进行计算和存储结果 优点 效率高 能够计算多种汇总 如:count,average,sum,min,max 可以使用roll-down和roll-up操作 限制 只能处理非数值化数据和数值数据的简单汇总。 只能分析,不能自动的选择哪些字段和相应的概念层次 面向属性的归纳 不限制于种类字段和特定

文档评论(0)

jiayou10 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8133070117000003

1亿VIP精品文档

相关文档