数据挖掘技术与综述.doc

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
0《基于数据挖掘技术的企业竞争情报系统的研究》D第二章内 容 数据挖掘(Data Mining,简称DM),也可以称为数据库屮的知识发现(Knowledge Discover Database,简称KDD),就是从大量的、不完全的、有噪声的、模糊的、随 机的实际应用数据屮,提取隐含在其小的、人们事先不知道的、但又是潜在有用的 信息和知识的过程。实际上这是一个模式提取的过程,主要基于人工智能、机器学 习、统计学等技术,高度自动化的分析企业原有的数据,做出归纳行的推理,从屮 挖掘出潜在的模式,预测客户的行为,帮助企业的决策者调整市场策略,减少风险, 做出正确的决策。 2」数据挖掘的定义 数据挖掘至今有多种定义,其屮得到公认的是[02]:数据挖掘是从数据小识别出有 效的、新颖的、潜在有用的、以及最终可理解的模式的高级过程。其屮,数据是指 一个有关事实F的集合,它是用来描述事务有关方而的信息,是我们进一?步发现知 识的原材料。 [02]苏新宁等.数据挖掘理论与技术.北京:科学文献出版社,2003. 2.2数据挖掘的分类 本文从数据挖掘的功能模型和数据挖掘对象两个方面进行分类。 按照功能模型分类 数据挖掘模式按功能可分为两大类:预测型(Predictive)和描述型(Descriptive)模式。 在预测型模式屮,用来预测的称为独立变量,耍预测的称为相关变量或H标变量。 预测模型包括分类模式、回归模式和时间序列模式;描述模式包括聚类模式、关联模 式和序列模式。前者乂称为有监督学习,后者称为无监督学习。 按照挖掘对象分类 数据挖掘对象可分为吋间序列数据、空间数据、文本数据、多媒体数据等。 2. 3数据挖掘的过程 数据挖掘处理过程一般有几个阶段,这几个处理阶段分别是数据准备、数据选择、 数据预处理、数据缩减、数据挖扌屈H标确定、挖掘算法确定、数据挖扌屈、模式解释 及知识评价。 数据准备:根据用户的要求从数据胯屮提取与数据挖掘相关的数据,数据?挖掘 将要从这些数据屮进行知识提取。 确定数据挖掘的H标:根据用户的要求,确定所要完成的数据挖掘是发现何种 类型的知识,确定知识模式及挖掘结果最终应达到的精度、范閘等。 知识发现算法:根据确定数据挖掘的H标及各种学习算法的特点设计挖掘算法 的详细步骤。详细设计算法的过程屮,可以根据确定的数据挖掘FI标和挖掘结果调 整算法,返回数据准备阶段,在前次的挖扌屈结果基础上重新筛选数据集。 数据挖掘:使用选择的算法对指定的数据集进行知识的提取。但由于数据量很 小,本模型在这一阶段的时间消耗将大大减少。 ⑸ 模式解释和知识评价:对挖掘结果进行一致性、有效性、新颖性、合理性检查, 与确定数据挖掘的H标进行比较。如果结果与预期H标偏差较大,返回算法设计阶 段,调整或重新设计挖掘算法;如果偏差较小,返回算法设计阶段,对挖掘算法进行 调整;如果结果理想,返回数据准备阶段,扩大数据集,重新开始一次挖掘过程。 图2-1 数据挖掘过程 2?4数据挖掘的方法 归纳学习法 归纳学习法是H前重点研究的方向。从采用的技术上看,分为两大类:信息论方法 和集合论方法。 1)信息论方法(决策树方法) 信息论方法是利用信息论的原理建立决策树。在知识工程领域,决策树是一-种简单 的知识表示方法,它将事例逐步分类成代表不同的类别。由于分类规则是比较直观 的,因而比较易于理解。 2)集合论方法 集合论方法是开展较早的方法。近年来,由于粗糙集理论的发展使集合论方法得到 了迅速的发展。这类方法屮包括:覆盖正例排斥反例方法(典型的方法有AQ系列方 法)、概念树方法和粗糙集方法。 仿生物技术 仿生物技术典型的方法是神经网络方法和遗传算法。这两类方法己经形成了独立的 研究体系,它们在数据挖掘屮也发挥了巨人的作用。 1) 神经网络方法 它是模拟了人脑神经兀结构,以MP模型和Hebb学习规则为基础的,建立了三大 类多种神经网络模型(前馈式网络、反馈式网络、自组织网络)。神经网络的知识体 现在网络连结的权值上,是一个分布式矩阵结构。神经网络的学习体现在神经网络 权值的逐步计算上(包括反复迭代或者是累加计算)。当需要从复杂或不精确数据屮 获得概念比较困难的吋候,利用神经网络技术特别有效。 2) 遗传算法 这是模拟生物进化过程的算法。它由繁殖(选择)、交叉(重组)、变异(突变)三个基木 算子组成。这种遗传算法起到产生优良后代的作用。这些后代需要满足适应值,经 过若干代的遗传,将得到满足要求的后代(问题的解)。遗传算法己在优化计算和分 类机器学习方面发挥了显著的效果。 (3) 公式发现 在工程和科学数据库(由实验数据组成)屮对若干数据项(变量)进行一定的数学运算, 求得相应的数学公式。 (4) 统计分析方法 这是利用统计学原理对数据库小的数据进行分析的方法,统计分析既是一

文档评论(0)

ggkkppp + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档