数据资源聚类预理及其应用研究.pdf

  1. 1、本文档被系统程序自动判定探测到侵权嫌疑,本站暂时做下架处理。
  2. 2、如果您确认为侵权,可联系本站左侧在线QQ客服请求删除。我们会保证在24小时内做出处理,应急电话:400-050-0827。
  3. 3、此文档由网友上传,因疑似侵权的原因,本站不提供该文档下载,只提供部分内容试读。如果您是出版社/作者,看到后可认领文档,您也可以联系本站进行批量认领。
查看更多
数据资源聚类预理及其应用研究

摘要 摘要 水呵水,到处都是水,船上的甲板却在于涸: 水呵水,到处都是水,却没有一滴能解我焦渴。 数据呵数据,到处都是数据,各类用户却在迷茫; 数据呵数据,到处都是数据,却没有任何提示能帮我决策。 美国前副总统AI Gore在1998年1月31目所做《数字地球:二十一世纪认识 我们的星球》[Corel998]的演讲中指出:一场新的技术革新浪潮正允许我们能够获取、 储存、处理并显示有关地球的空前浩瀚的数据以及广泛而又多样的环境和文化数 据信息,而充分利用这些浩瀚数据的困难之处在于把这些数据变得有意义——即 把原始数据变成可理解的信息。今天,我们经常发现我们拥有很多数据,却不知 如何处置。现在,我们贪婪地渴求知识,而大量的资料却闲置一边,无人问律。 没有物质,就什么都不存在;没有能源,就什么都不会发生:没有信息,就 什么都没有意义ioetl9651。作为三大资源之一的信息,对于我们的生活越来越具有深 远的影响。面对如此丰富、繁杂的数据,如何才能从中提取有价值的信息和知识, Discovery 由此诞生了一个新的研究方向:基于数据库的知识发现KDD(K.nowledge in Database)以及相关的数据挖掘DM①ata Mining)理论和技术。 数据资源fDataResource)作为信息领域基本的研究对象,是从资源的角度对数 据及其本身所存在的状态给予的重新认识与高度概括。综合利用各类有效的KDD 和DM技术来提高数据资源本身的质量、增强数据对象的利用效率成为数据资源 有效开发利用的主要研究方向。数据资源的预处理作为KDD和DM过程的重要 环节,聚类分析作为KDD和DM领域成熟的技术,这两者相结合的研究具有重 要的探讨意义和应用价值。 本文将聚类分析引入数据资源的预处理,进行了多方面的研究,取得以下主 要成果: 1.借鉴分裂型层次化聚类方式,分别从平面、立面、空间等三个层次综合构 建基于层次分析法的数据库聚类预处理DCP—AHP方法,突出运用层次化思维来 迭代评估目标,剔除相异度高的数据对象集合,达到聚类清理数据对象集合的目 的,减少定性问题定量化后误差的影响。 2,按熙相关性最小原则,提出数据库主成份提取的聚类预处理DCP—PCE方 法进行高维数据系统的降维处理,获得数据对象变异最大方向的投影作为特定数 土洛大擘博士擘拉论文 据对象集合中的各个主成份,实现分层次的主成份聚类提取;同时DCP·PCE方法 也验证了主成份对于原有信息全面覆盖的特性,同步解决了综合变量覆盖和降维 问题,降低了数据对象集合的稆异度和维度.实现了数掘对象集合的聚类归约。 3.利用数据对象的物理存储属性本身所具有的“0、1”特性,针对同体不同 源数据对象SEDS提出同体不同源数据对象聚类数化NC—SEDS算法,将数据资源 中所有数据对象都通过数据对象预处理的过程转换成数字状态,然后利用数化后 数据对象的数字状态作为聚合归类的依据,在不考虑数据对象其他属性的情况下, 提高同体不同源数据对象SEDS的凝聚程度,达到降低比较次数、总体执行时间 的目的,实现数据对象的聚类集成。 4,为了贯彻“复杂问题求解”的思想,提出了基于本体核与直方图的聚类预 处理CPOKH方法。在对数据对象进行聚类预处理时,首先得到弱量本体核的客 体数据频数,然后根据用户明确的需求信息,获得所有需要的弱量本体核,并将 其结合成强量本体核,最后通过“直方图”的构建与分析,明确数据对象的相关 类属。 5,借鉴“能量”与“碰撞”的基本理念。以数据资源预处理得到的数据对象 类或簇作为主要研究对象,构建了基于能量的“有效”动态阈值,实现了基于能 量碰撞的聚类优化COEH策略:对己经具备聚类初步特征的数据空间进行用户主 题需求的能量驱动,把聚类内部的数据对象与孤立点数据对象放在统一的认识平 台中加以统筹处理,保证了数据对象的聚类优化, 同时,作为理论成果的应用研究,本文选择了高校教育评估体系作为应用研 究对象,将聚类分析技术引入高校数据资源的预处理环节,给出了应用实例,为

文档评论(0)

chuotuo0075779 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档