- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
模糊聚类分析
聚类分析就是将一个没有类别标记的样本集按照某种准则划分成若干个子集(类),使相似的样本尽可能归为一类,而不相似的样本尽可能划分到不同的类中。由于在对样本集进行聚类的过程中,没有任何关于类别的先验知识,所以聚类分析属于无监督分类的范畴。
传统的聚类分析是一种硬划分,它将每个待识别的对象严格地划分到某个类中,类别划分的界限是分明的,具有“非此即彼”的性质。而现实世界中,一组对象根据其亲疏程度和相似性是否形成一个类群,或一个对象是否属于一个类别,其界限往往是不分明的,具有“亦此亦彼”的性质。对于这种带有不确定性的聚类问题,模糊聚类分析提供了有力的分析工具。
模糊聚类分析能够建立样本对于类别的不确定性描述,表达样本类属的中介性,已经成为聚类分析研究的主流。粗略来讲,模糊聚类分析方法可分为两类:基于模糊等价关系的聚类方法和基于目标函数的聚类方法。有时,这两类方法也结合起来使用。
一、数据预处理
在模糊聚类分析中,我们称待分类的对象为样本。要对样本进行合理的分类,首先应考虑样本的各种特性指标(观测数据)。设有n个被分类对象,即样本集为
X = {x1, x2, …, xn}
每一个xi有m个特性指标,即xi可表示为特性指标向量
xi = {xi1, xi2, …, xim}
其中xij表示第i个样本的第j个特性指标。于是,n个样本的特性指标矩阵为
??x21?M??x?n1x12Lx1m?
x22Lx2m?
xn2Lxnm??
通常,我们也将样本集记为特性指标矩阵的形式,即X = (xij)n×m。
如果m个特性指标的量纲和数量级都不相同,在运算过程中就可能会因为突出某些数量级特别大的特性指标对分类的作用,而降低甚至排除某些数量级很小的特性指标的作用,致使对各特性指标的分类缺乏一个统一的尺度。所以,为了消除特性指标单位的差别和数量级不同的影响,当特性指标的量纲和数量级不相同时,通常事先对各种指标值实施数据标准化(规格化),从而使得各个指标值都统一于某种共同的数值特性范围。我们称之为数据预处理。
常用的数据标准化方法有两种:均值方差标准化和极大极小标准化。 (1) 均值方差标准化
设给定的样本集为X = (xij)n×m,标准化之后的样本集为X = (x′ij)n×m,则
,i = 1, 2, …, n,j = 1, 2, …, m
j=∑xij,σj=
(2) 极大极小标准化
(xij?j),j = 1, 2, …, m ∑n?1i=1
设给定的样本集为X = (xij)n×m,标准化之后的样本集为X = (x′ij)n×m,则
xij?xjminxjmax?xjmin
,i = 1, 2, …, n,j = 1, 2, …, m
xjmin=min{xij},xjmax=max{xij},j = 1, 2, …, m
显然,实施数据标准化之后,每个指标值均在区间 [0, 1] 中。
二、基于模糊等价关系的聚类方法 (一)模糊等价矩阵聚类方法
模糊等价矩阵聚类方法是典型的基于模糊等价关系的聚类方法之一。其主要思想就是从计算各个样本之间的相似性统计量出发,建立样本集X上的模糊相似矩阵(关系);通过改造模糊相似矩阵为模糊等价矩阵,达到对样本集X进行模糊聚类的目的。
模糊等价矩阵聚类法
1° 选择适当的相似性统计量; 2° 构造样本集上的模糊相似矩阵; 3° 将模糊相似矩阵改造为模糊等价矩阵; 4° 聚类;画出聚类的谱系图。 1.建立模糊相似矩阵
设待分类的样本集为X = {x1, x2, …, xn} 或X = (xij)n×m,并已经标准化。如果能够计算出衡量样本xi与xj之间相似程度的相似性统计量rij,使得
,i, j = 1, 2, …, n 0 ≤ rij ≤ 1,
其中,rij = 0表示样本xi与xj之间毫不相似,rij = 1表示样本xi与xj之间完全相似或者等同,rii表示样本xi自己与自己的相似程度,恒取为1,即rii = 1,i = 1, 2, …, n,那么,描述样本之间的模糊相似关系、建立在样本集X上的模糊相似矩阵为
?r11r12?
?r21r22R=?
?rr?n1n2Lr1n?
?LM?Lrnn??
常用的计算样本的相似性统计量的方法有如下几种: (1) 相关系数法
?i|?|xjk?j|
i=∑xik,j=∑xjk
mk=1mk=1
(2) 夹角余弦法
x2ik?x
您可能关注的文档
最近下载
- (正式版)DB61∕T 1486.8-2021 《设施茄果类蔬菜水肥一体化技术规范 第8部分:辣椒基质栽培》.docx VIP
- (正式版)DB61∕T 1486.8-2021 《设施茄果类蔬菜水肥一体化技术规范 第8部分:辣椒基质栽培》.pdf VIP
- 《光伏玻璃工艺讲解》课件.ppt VIP
- 迅达扶梯9300ae产品介绍.pdf VIP
- SL747-2016采矿业建设项目水资源论证导则.pdf VIP
- 重症医学科专科护士工作汇报.ppt VIP
- 云南省茶叶出口影响因素的实证研究.docx VIP
- crrt专科护士汇报ppt.pptx VIP
- 毕业设计(论文)-星型发动机设计.docx
- 除尘器噪音标准.pdf VIP
原创力文档


文档评论(0)