- 1、本文档共62页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* 数据挖掘的过程 巩固和运用阶段:用户理解的、并被认为是符合实际和有价值的模式形成了知识。同时还要对知识进行一致性检查,解决与以前得到的知识互相冲突、矛盾的地方,使知识得到巩固。运用知识有两种方法:一种是只需看知识本身所描述的关系或结果,就可以对决策提供支持;另一种是要求运用知识对新的数据进行分析,由此可能产生新的问题,而需要对知识作进一步的优化。 * 数据挖掘系统的结构 数据挖掘系统可以采用三层的C/S结构: 第一层:为图形用户界面,位于系统的客户端; 第二层:为数据挖掘引擎,它是数据挖掘系统的核心,位于系统的应用服务器端; 第三层:为数据库与数据仓库,位于数据服务器端。 * 数据挖掘系统的结构-图形用户界面 该模块实现用户与数据挖掘系统之间的通信,允许用户与系统交互。用户可以通过图形化界面指定数据挖掘任务、输入有关信息,根据系统以可视化形式输出的数据挖掘的中间结果进行探索式的数据挖掘。此外,该模块还提供用户浏览数据库和数据仓库模式或数据结构、评价数据挖掘的模式等功能。 * 数据挖掘系统的结构- 数据挖掘引擎 数据挖掘引擎是数据挖掘系统最基本、最重要的部分,是数据挖掘系统的核心。该部分由一系列功能模块组成,分别用于关联规则挖掘、分类规则挖掘、聚类规则挖掘、时序与序列数据挖掘和WEB数据挖掘等。 * 数据挖掘系统的结构-数据库与数据仓库 该部分位于数据服务器端,包括数据库、知识库、文件系统、其他数据源以及存放经过数据准备提取和集成后数据的数据仓库。在知识库中存放领域知识,用于搜索和对模式进行评价。 数据库与数据仓库服务器的功能是根据用户的数据挖掘请求,提取相应的数据供数据挖掘引擎使用。 * 数据挖掘常用技术 生物学方法 人工神经网络 遗传算法 信息论方法 决策树 集合论方法 约略集 模糊集 最邻近技术 统计学方法 可视化技术 * 生物学方法-神经网络方法 神经网络是人工智能领域的一个重要的分支。采用神经网络设计的系统模拟人脑的结构,而与传统的系统截然不同。由医学可知,人的大脑中有几十亿个大脑细胞(称为神经元),这些神经元通过神经中枢的导电神经纤维互相连接,从而形成一个复杂的脑神经网络。人在学习某一件事的时候,某些神经元的连接得到强化。 在人工神经网络中,用计算机处理单元来模拟人脑的神经元,并将这些处理单元象人脑的神经元那样互相连接起来,构成一个网络。神经网络并非使用编程的方式让计算机去做某项工作,而是采用所谓“训练”的方法让神经网络进行“学习”。完成某项工作的正确动作,使得神经网络的某些连接或模式得到强化;而错误的动作则使神经网络的相应连接或模式不被强化。从而让神经网络“学会”如何去做这项工作。 * 生物学方法-神经网络方法 神经网络通过学习待分析数据中的模式来构造模型,一般可对隐类型进行分类,用于非线性的,复杂的数据。它通过模拟人脑神经元结构进行数据挖掘。 以MP模型和Hebb学习规则为基础,建立了三大类多种神经网络模型: 前馈式网络:以感知机、反向传播模型、函数型网络为代表,可用于预测、模式识别等方面。 反馈式网络:以Hopfield的离散模型和连续模型为代表,分别用于联想记忆和优化计算。 自组织网络:以ART模型、Koholon模型为代表,用于聚类。 * 生物学方法-遗传算法 遗传算法(Genetic Algorithms,简记为GI):是一种借鉴生物界自然选择和进化机制发展起来的高度并行、随机、自适应搜索算法。遗传算法的研究历史比较短,是从20世纪60年代末期到70年代初才开始的,当时的一些学者从试图解释自然界中生物的复杂适应过程入手,模拟生物进化的机制来建立人工系统的模型。经过近30的发展,现已取得了理论研究的进展和丰硕的应用成果。目前,以遗传算法为核心的进化算法已与模糊系统理论、人工神经网络等一起成为人工智能研究中的热点,受到许多学科的共同关注。 * 生物学方法-遗传算法 遗传算法的研究与生物进化理论和遗传学密切相关。生命的基本特征包括生长、繁殖、新陈代谢和遗传与变异。生命是进化的产物,现代的生物是在长期的进化过程中发展起来的。 达尔文提出了用自然选择来解释生物的进化过程,该学说包括遗传、变异、生存斗争和适者生存三个方面。 生物进化是非常复杂的,它将涉及诸如染色体、脱氧核糖核酸、遗传因子、种群、基因、进化、选择、复制、交叉、变异、编码与解码等许多名词术语,而且许多现象尚无法用现有的进化理论来解释。 * 生物学方法-遗传算法 遗传算法的基本思想:从代表问题的可能潜在解集的一个种群开始,一个种群是由经过基因编码的一定数量的个体组成,每个个体是染色体带有特征的实体,染色体是多个基因的集合,它决定了个体的形状和外部表现;通过模拟基因编码形成初代种群,然后按照适者生存和优胜劣汰的原则逐代演化产生出越来越好的近似
文档评论(0)