一种不精确数据聚类挖掘方法.docVIP

下载本文档

1
0
约6.68千字
约 13页
2018-08-13 发布于福建
举报
版权申诉

一种不精确数据聚类挖掘方法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种不精确数据聚类挖掘方法

一种不精确数据的聚类挖掘方法　　（1.湖南商学院计算机与电子工程系, 长沙 410205; 2.中南大学信息科学与工程学院, 长沙 410083）　　?? 　　摘要：在聚类过程中考虑到数据的非确定性，提出了一种改进的K平均算法――FK算法。FK算法思想是减小总均方误差的期望值E(SSE),需特别说明的是对数据对象xi 采用在非确定区域内用非确定密度概率函数pdf f(xi)进行描述。用FK算法对非确定运动模式的运动对象进行了分析，实验表明考虑数据的非确定因素，在聚类分析处理时有比较精确的结果。　　?す丶?词：非精确数据； K平均算法； FK聚类算法；密度概率函数　　?ぶ型挤掷嗪牛?TP391 文献标志码：A 　　文章编号：1001?B3695(2009)03?B0887?B03 　　?? 　　Algorithm in clustering location datafor uncertain data mining 　　?? 　　LI Qingfeng1，2， ZHOU Xiancheng1,2, WANG Li1，2， ZHOU Weilin??1 　　?? 　　（1.Dept. of Computer Electronic Engineering, Hunan Business College, Changsha 410205, China; 2.School of Information Science Engineering,Central South University, Changsha 410083, China) 　　?? 　　Abstract:To consider data uncertainty in the clustering process, this paper proposed a FKmeans clustering algorithm that enhanced the Kmeans algorithm tothe goal of minimizing the expected sum of squared errors E(SSE). Specially noted that a data object xi was specified by an uncertainty region with an uncertainty pdf f(xi). This paper applied FKmeans to the particular pattern of movingobject uncertainty. Experimental results show that by considering uncertainty, the clustering algorithm can produce more accurate results. 　　??Key words：data uncertainty; Kmeans algorithm ; FKmeans clustering algorithm; pdf 　　?お? 　　现实生活中数据的不精确性是固定存在的，如距离测量数据、传感器检测数据等。由于测量偏差、取样精度及非实时性等往往使得到的数据出现一定的误差，这种数据称为噪声数据。对噪声数据处理已经有了多种较成熟的方法，但对不确定数据的挖掘工作做得还比较少。由于不确定性，数据不再具有确定值的粒子特性，传统的数据挖掘技术多是对确定数据的分析处理，因此采用这些技术之前应平滑数据、去掉噪声。对噪声数据处理的方法不同，将对数据挖掘的结果有较大的影响。图1描述了不确定性位置的运动物体的一种聚类算法，如果仅仅考虑表面记录的数值，许多物体将可能被划入错误的类，甚至有可能会改变各类的聚类质心，导致一系列的错误。对这种问题通常采用的技术是归纳不确定的数据信息，例如用统计概率密度函数，这样能使数据挖掘的结果更接近现实的情况。本文研究了怎样对不确定数据进行归纳合并，以便使聚类挖掘结果更准确，同时提出了一种基于K中心点聚类的新算法。?? 　　图1(a)中现实的数据由三个聚类点(a, b, c)构成；(b)中分析记录的数据时，可能会推导出四个聚类（a′,b′,c′ and c″）；(c)中当运用线性不确定性进行分析时，推导的结果是a′, b′ and c三个聚类，显而易见，这个结果与（b）中分析相比更接近真实的数据聚类（a）。?? 　　1 相关的工作?? 　　近年来不确定数据的分析处理研究逐渐引起了人们的关注和兴趣。很多研究致力于非精确数据的查询，以便发现可信度比效高的结果。例如，在文献[1]中, Cheng等人提出了在序列范围内查询非精确数据的解决思