- 1、本文档共41页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
符号聚类新方法研究及应用
摘要
摘 要
聚类是一门非常重要的技术。所谓聚类就是按照某种度量(相似性度量、不相似性
度量或距离),根据一定的准则将个体集合分成若干类,使得同类个体之间的相似程度
大于不同类个体之间的相似程度即做到”物以类聚,其目的是要挖掘出个体集合的信
息。目前的常用聚类方法大致可以分为层次聚类、划分聚类、基于模型的聚类、基于密
度的聚类、基于网格的聚类等。聚类技术已经被广泛得应用于分类学、生物信息学、商
业、医学、图像处理等领域。
传统的聚类技术处理的对象都是连续的数值型数据(我们称之为传统数据,其中包
括模糊数据)。但是,现在我们发现,在很多场合中我们无法用传统的数据来很好得表
达信息,例如物体的颜色(或许你会认为,可以用不同的数值来代表不同的颜色,但是
那样的数值也仅仅是不同颜色的代码,已不再是传统意义上的数值,自然不能用传统的
数值方法来处理)、用户的反馈、某个地区某段时间内的气温范围等等,这些数据不像
传统的数据那样有序、单值、连续,而且有时候同一个体的不同特征的取值之间存在着
一定的关系,我们把这类数据统称为符号数据。随着符号数据越来越多得出现,产生了
Data
专门分析处理符号数据的领域——符号数据分析(SDA,SymbolicAnalysis),而聚
类是其中重要且不可替代的分支。符号聚类分析就是研究如何将传统聚类中的技术引入
符号数据分析中,并且在需要的情况下创造出符合符号数据特性的新聚类理论和方法。
本着这个原则,本论文主要针对三种常见的符号数据——名词性数据、区间数据、混合
数据(即一部分特征是符号特征,一部分特征是传统特征),在前人工作的基础上,做
了一些研究改进。
对于名词性数据,过去常用Hamming Distance
Distance来简单度量,但是Hamming
太粗糙,不能充分挖掘隐藏在数据中的信息。本论文中采用了智能优化算法中粒群优化
Swarm
算法(PSO,Particle
层次聚类的实验结果表明了,在度量名词性数据上,通过PSO学习得到距离要优于简
Distance。
单的Hamming
对于区间数据,我们采用了相互距离(MD,MutualDistance)的概念,给出了一个
适用于区间数据的相互距离公式,并在此度量的基础了,引进了最新的聚类方法一相
似性传播聚类(APC,AffinityPropagationClustering),避免了符号聚类中心如何表示的
问题。最后的实验证明了我们的算法要优于基于Euclidean
(CM,C.means)。
对于混合数据,由于之前的混合数据聚类中没有考虑到不同的特征对于聚类的贡献
C.means)时,考
不一样。因此本文在对混合数据进行模糊C均值聚类(FCM,Fuzzy
虑特征权重问题,推导出适用于混合数据的带特征权重的模糊C均值算法。最后的实验
也表明了考虑特征权重的合理性和必要性。
关键词:聚类;符号数据;符号数据分析;符号聚类;名词性数据;层次聚类;粒群优化;区
间数据;相互距离;相似性传播聚类;混合数据;特征权重;模糊C均值算法
, Abstract
Abstract
is onone
technologyvery metric(similaritymetric,
Clustering important.Based
metricor called istodividesetofindividualsintosome
dissimilaritydistance),SOclustering
subsetSOthatitismores
文档评论(0)