- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
浅谈数据挖掘
何盛玉王行愚
华东理工大学自动化所上海200237
擅要:本文介绍了知识发现和数据挖掘的基奉概念、其相关领域度处理过程。同时概
括了茼化敷据挖掘问题的几种方法。并总蛄了知识发现的应用领域厦目前面临的挑战。
关麓词:知识发现;数据挖掘;神经同蝽;决策树;数据仓库
现代社会,信息作为一种无形的资产在社会中起着越来越重要的作用。随着科技的进
步,声音、图像等各种形式的信息大量地产生.并且借助各种媒介(如Internet、Intranet、电
视、报纸等)快速广泛地传播,呈现在人们面前的是一片信息的海洋。如何对大量的信息进
行有效地组织和利用也就成为新的课锺。
一、知识发现和数据挖掘的概念
1.散据挖掘定义
显然,传统的手工查询方式不能满足有效利用信息的需要。人们寄希望于一种新的技
术和工具,它能够智能地、自动地分析大量信息,从中提出真正有价值地知识,这就是知识发
现和数据挖掘的任务。数据挖掘是从大量数据中提取出有效的、新颖的、有潜在应用价值
的、不为人们所知的并最终能被理解的模式的非平凡过程。[1】知识发现(Knowledge
in
DisⅫ目yDH姐ba∞,简称KDD)则是从数据中发现有甩知识的整个过程。数据挖掘是知
识发现过程中的一个特定步骤。
2.相关镊域
知识发现是一个交叉科学领域.它将不同领域中的研究者和实践者会聚在一起。它的
主要相关领域有统计学、机器学习、人工智能和不确定性推理、数据库、知识获取、模式识别、
信息恢复、可视化、分布及多媒体环境的智能代理、数据库以及管理信息系统。
3.知识发现过程
数据挖掘指从数据中抽取模式或模型的行为(自动地或人工辅助地)。然而,在数据挖
掘之前还有许多步骤:从大型数据仓库(或其它来源)中获取数据;选择适当的子集进行处
理;确定台适的采样决策;清理数据并处理遗锅的字段;采用合适的方法进行数据转换、维数
缩减及规划。然后。散据挖掘过程再对预处理数据匹配合适的模型或从中提取模式。然而.
要确定被抽取的信息是否已准确表达知识,我们还需要评价这些信息.或者将其可视化.最
后还要用现有的(或者可能是矛盾的)知识加以巩固。显然,这些步骤在从数据到知识的过
程中都是非常关键的。而且.每一步骤都可能导致整个过程的变化。结果经常需要带者新的
选择及设置从零开始。因此,数据挖掘只是整个知识发现过程中的一个步骤。
一339—
图l KDD处理过程
图I概括了KDD的处理过程。它让人觉得其中每一步都是非常明确的。而事实上,在
每一步骤中技术的选择.技术所选择的参数及问题表示的方法之间的相互作用都是非常复
杂的。任何部分的微小变化都会严重地影响其他部分,因而可能导致KDD计划的舶失败。
二、几种数据挖掘方法的灵活运用
1.神经元网络方法中对阿络的简化
神经网络方法模拟人脑神经元结构,建立神经罔络模型。神经网络的知识体现在网络
连接的权值上,是一个分布式矩阵结构;神经网络的学习体现在神经网络权值的逐步计算
上。
然而,对于初始的神经元网络.可以将每个隐含层节点与输人层节点的联接看作一个。
维向量.n为输人层节点的个数,向量中各维的值即这个臆含层节点到各个输人层节点的联
接权值。假设有m个隐含层节点.则有m个向量。再将这m个向量进行聚类,采用欧拉函
数计算各个向量之间的相似度,若两个向量的相似度达到一个闲值,则将它们归为一类,分
好类后,每类留其中一个臆含层节点而删除其它同类臆含层节点。其根据是向量之间夹角
小到一定程度后即可认为向量相关。
璀除多余隐含层节点后再检查网络的每个联接权值,若小于另一个确定的阕值则删除
这个联接。
通过以上对神经元同络的简化,使得网络的隐含层节点之间互不相关.主要的信息披保
留了而且更紧凑她被编码在网络中。
2.决策树方法对属性的划分
最初,决策树方法的目的是在实例学习的基础上.给出分类规则。ID3(Inductionof
Decis.0n
Tree)方法借用信息论的原理,将一棵决策树看作一个信源,通过依次将每一属性
的不同属性
文档评论(0)