数据挖掘概览.docVIP

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘概览.doc

为什么要有数据挖掘 随着信息技术的发展,特别是数据库技术的发展,在各个领域都存在大量的可供开发的数据。所以,从这些杂乱无章的堆积数据中找寻对我们有价值的信息和知识,并用它们指导我们的资源利用和分配变得意义非凡,这也就导致了数据挖掘这门新兴科学的出现。 随着数据库系统中数据的不断增长,人们要求从数据库中的到的服务变得越来越复杂。当数据库中的数据量小时,人们的需求也许仅限于某一条或者多条记录查询,最多涉及几张表的关联查询;当数据库中数据库量巨大时,人们便产生了新的需求,例如从对几百万甚至几千万条记录的统计概率中得出总结性的规律用于指导实践,这种情况下,简单的关系数据库远远不能满足查询需求,也许只有对数据的有效挖掘才能胜任如此艰巨的任务。 什么是数据仓库 数据仓库是一个面向主题的,集成的,时变的,非易失性的数据集合,它为商务决策者提供决策依据。 面向主题性:数据仓库围绕着一些主题如顾客,供应商,产品类型和销售来组织。数据仓库关注决策者的建模与分析,而不是组织机构的日常操作与实务。因此,数据仓库排除对于决策支持过程无用的数据,提供面向特定主题的视图。 集成性:通常构造数据仓库是将多个异构数据源,如关系数据库,一般文件和联机事务记录集成在一起。使用数据清理和数据集成技术确保命名约定,编码结构,属性度量等一致性。 时变性:数据仓库的时间范围要比操作数据库的时间范围长得多。通常,操作数据库只保存当前数据,而数据仓库是从历史的角度提供信息。数据仓库中的每一个关键结构都显式或隐式地包含了时间元素。 非易失性:数据仓库与操作数据库的数据存储在物理上是分离的,数据仓库所提供的操作大多数是读操作。因此,数据仓库不需要提供支持写操作的事务处理,恢复和并发控制机制。所以,数据仓库的数据具有非易失性。 数据仓库和关系型数据库区别 关系型数据库和数据仓库都对数据进行存储。但是,关系型数据库存储的数据是格式化的数据,其中每一条记录的各个字段,字段类型,字段长度都有明确规定;数据仓库存储数据的形式时是面向主题的,其数据来源于分散的操作记录,经过数据清理去除冗余,存入数据仓库,其主要目的是为决策分析提供数据。因此,从客户角度来看数据仓库中的信息更容易理解,从数据存储角度看关系数据库更节省空间。 什么是数据挖掘 数据挖掘就是从大量数据中“挖掘”有价值的信息和知识。数据挖掘是数据库知识发现(Knowledge Discovery in Database)的关键步骤,KDD的步骤如下: 数据清理:消除噪声和不一致数据; 数据集成:把不同来源,不同格式的数据通过交换进行聚集; 数据选择:从数据库中提取与分析任务相关的数据; 数据变换:数据变换为适合挖掘的统一形式; 数据挖掘:使用智能方法提取数据模式; 模式评估:对数据挖掘产生的数据模式的有效性进行评估; 知识表示:使用可视化技术,向用户提供挖掘的知识。 数据挖掘系统一般模式 数据挖掘的挖掘对象大致有关系数据库,数据仓库,事务数据库,高级数据库系统,数据流,web几种。数据挖掘的一般模式如下: 从数据库,数据仓库,web或者其他信息库中获得数据,进行数据的清理,集成,和选择后,将获得的数据存入数据仓库服务器; 使用数据挖掘算法在数据仓库中进行挖掘,产生相应的数据模式; 对新生的数据模式进行评估,评估通过存入知识库,用于指导新的数据挖掘; 将数据挖掘得到的知识以可视化的形式呈现给用户。 数据挖掘功能可以挖掘出什么类型的数据模式 类/概念描述:以数据的角度对数据库中的数据进行分类。有多种方法可以得到类描述,数据特征化即简单的汇总所研究的类;数据区分即将所描述的类与一个或几个其他类进行区分。 频繁模式:频繁项集即在事务数据集中一起出现的项的集合,如牛奶和面包一起购买;频繁序列模式即在事务数据集中频繁出现的数据线性序列,如先买计算机后买打印机;频繁结构模式即在事务数据集中频繁出现的非线性结构,如顾客在什么季节,节日最喜欢买什么。 分类和预测:根据数据库中的数据总结出相应的函数或模式,用该函数群别类或者概念,并且用该函数预测标志未知的类。导出的模型表示方式有决策树,分类规则,神经网络等。分类即预测离散目标变量;回归即预测连续目标变量。可以根据模型预测数据库中单个记录的缺失属性值。 聚类分析:目标是发现紧密相关的群组值,使得与属于不同组的观测值相比,属于同一组的观测值之间尽可能类似。 离群点分析:数据库中与一般数据对象行为不一致的数据,亦可称为噪声点。 演变分析:描述行为随时间变化的规律或趋势,并对其建模。 分类和聚类的区别 分类找出描述数据类或概念的模型(函数),以便能够预测类标记未知的的对象类。聚类是将本身没有区别的数据分成不同的簇,同一簇之间的数据足够相似,不同簇之间的数据足够不相似,在聚类之前我们不知道将要分成多少簇。 模式

文档评论(0)

整理王 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档