网站大量收购独家精品文档,联系QQ:2885784924

[工学]第6章 数据挖掘技术1new0.ppt

  1. 1、本文档共45页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
[工学]第6章 数据挖掘技术1new0

第一节 绪论 什么是数据挖掘? 数据挖掘的步骤 数据挖掘的主要功能 关联分析 分类和预测 聚类分析 孤立点分析 演变分析 在何种数据上进行数据挖掘 数据挖掘技术的前景 数据挖掘的发展动力 ---需要是发明之母 需要是发明之母 存在大量数据,可以广泛使用 迫切需要将这些数据转化成有用的信息和知识 获取的信息和知识可以广泛用于各种应用:商务管理、生产控制、市场分析、工程设计和科学探索等 数据极大丰富,信息极其匮乏 解决方法:数据仓库技术和数据挖掘技术 数据仓库(Data Warehouse)和在线分析处理(OLAP) 数据挖掘:在大量的数据中挖掘感兴趣的知识(规则,规律,模式,约束) 数据挖掘的案例:“啤酒”和“尿布” 一则广为流传的案例:啤酒和尿布的故事 美国加州某个超市连锁店发现: 在下班后前来购买婴儿尿布的顾客多数是男性,他们往往也同时购买啤酒。 处理:重新布置了货架,啤酒类商品、婴儿尿布、土豆片之类的佐酒小食品、男士们日常生活用品就近布置。 结果:上述几种商品的销量几乎马上成倍增长。 什么是数据挖掘? 对于数据挖掘(Data Mining,DM)和知识发现(knowledge discovery in data base, KDD)的确切定义一直在许多学者中有混淆。有学者认为数据挖掘和知识发现是等价的概念,人工智能(AI)领域习惯称知识发现,而数据库领域习惯称数据挖掘,有的甚至将两个概念视为同义词。也有学者把知识发现看做发现知识的完整过程,而数据挖掘只是这个过程中的一个部分。 什么是数据挖掘? 1995年在加拿大召开了第一届知识发现和数据挖掘国际学术会议, 对于数据挖掘和数据库中的知识发现的概念进行了描述。 数据库中的知识发现是被认为从数据中发现有用知识的整个过程,知识即意味着数据元素之间的关系和模式。数据挖掘被认为是知识发现过程中的—个特定步骤,它是应用具体算法从数据中提取模式和知识。 “Data mining is the application of artificial intelligence (AI) techniques (neural network, genetic algorithms, etc) to large quantities of data, to discovery hidden trends, patterns, and relationships.” Meta Group 4/1996 因此可以这样定义数据挖掘: 数据挖掘,就是应用一系列技术从大型数据库或数据仓库的数据中提取人们感兴趣的信息和知识,这些知识或信息是隐含的、事先未知而潜在有用的。提取的知识表示为概念(concepts)、规则(Rules)、规律(Regularities)、模式(Patterns)等形式。 因此,数据挖掘必须包括三个因素: 数据挖掘的本源:大量、完整的数据 数据挖掘的结果:概念、规则、规律 结果的隐含性:因而需要一个挖掘过程 注意: 应该是在一个大量的数据集中进行数据的挖掘工作,归纳结果应该是具有普遍性意义的规则,从一万条数据中找出的规律也应该能够适用于十万、一百万……的情况。例如: 从一个没有同名的人群中可以抽取出关键字(即标识属性)‘姓名’,但这显然不适合普遍情况。 数据挖掘的目的:用归纳出的规律来指导客观世界. 数据挖掘中的几个基本概念: 模式(pattern) 用高级语言表示的表达一定逻辑含义的信息,这里通常指数据库中数据之间的逻辑关系。 例如:在超市的商品销售数据库中,我们可以找到以下信息: 男性顾客在购买婴儿尿布时也往往同时购买啤酒 在购买面包和黄油的顾客中,大部分的人同时也买了牛奶 数据挖掘中的几个基本概念: 置信度(confidence) 模式在某一数据域上为真的量度。 例如:模式‘在购买面包和黄油的顾客中,大部分的人同时也买了牛奶’的置信度为: 同时购买‘面包、黄油、牛奶’的顾客人数占同时购买‘面包、黄油’的顾客人数的百分比。 数据挖掘中的几个基本概念: 兴趣度(interestingness) 在一定数据域上为真的知识被用户关注的程度。 知识(discovered knowledge) 满足用户兴趣度和置信度的模式。 数据挖掘中的几个基本概念: 非平凡性(nontrivial) 能够以确定的计算过程提取的模式称为平凡知识。平凡的知识(如根据数据库中的薪水字段求得职员的平均薪水)不是数据挖掘的目标。 在数据挖掘中,知识的发现过程都应具有某种不确定性和一定的自由度,也就是要发现不平凡的知识。 从上面的讨论中可以看出来,数据挖掘的过程具有以下一些显著的特点: 数据挖掘要处理大量的数据,它所处理的数据库(数据仓库)的规模十分

文档评论(0)

qiwqpu54 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档