模糊聚类分析解析.docxVIP

下载本文档

19
0
约7.79千字
约 21页
2017-01-11 发布于广东
举报
版权申诉

模糊聚类分析解析.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

模糊聚类分析解析

目录1引言:22 理论准备：22.1 模糊集合理论22.2模糊C均值聚类(FCM)32.3 加权模糊C均值聚类(WFCM)33 聚类分析实例43.1数据准备43.1.1数据表示43.1.2数据预处理43.1.3 确定聚类个数53.2 借助clementine软件进行K-means聚类63.2.1 样本在各类中集中程度73.2.2 原始数据的分类结果73.2.3结果分析83.3模糊C均值聚类83.3.1 数据集的模糊C划分83.3.2 模糊C均值聚类的目标函数求解方法93.3.3 MATLAB软件辅助求解参数设置93.3.4符号表示103.3.5代码实现过程103.3.6 FCM聚类分析103．4 WFCM算法133.4.1 WFCM聚类结果展示133.4.2样本归类143.4.3归类代码实现154．结论165 参考文献176 附录17模糊聚类与非模糊聚类比较分析摘要：聚类分析是根据样本间的相似度实现对样本的划分，属于无监督分类。传统的聚类分析是研究“非此即彼”的分类问题，分类结果样本属于哪一类很明确，而很多实际的分类问题常伴有模糊性，即它不仅仅是属于一个特定的类，而是“既此又彼”。因此为了探究模糊聚类与非模糊聚类之间聚类结果的差别，本文首先采用系统聚类方法对上市公司132支股票数据进行聚类，确定比较合理的聚类数目为11类，然后分别采用K-means聚类与模糊聚类方法对股票数据进行聚类分析，最终得出模糊聚类在本案例中比K-means聚类更符合实际。关键字：模糊集合，K-means聚类，FCM聚类，WFCM聚类1引言:聚类分析是多元统计分析的方法之一，属于无监督分类，是根据样本集的内在结构，按照样本之间相似度进行划分，使得同类样本之间相似性尽可能大，不同类样本之间差异性尽可能大。传统的聚类分析属于硬化分，研究对象的性质是非此即彼的，然而，现实生活中大多数事物具有亦此亦彼的性质。因此传统的聚类分析方法往往不能很好的解决具有模糊性的聚类问题。为此，模糊集合理论开始被应用到分类领域，并取得不错成果。本文的研究目的是通过对比传统聚类和模糊聚类的聚类结果，找出二者之间的不同之处，并说明两种聚类分析方法在实例中应用的优缺点。2理论准备：2.1 模糊集合理论模糊集合定义：设Ｕ为论域，则称由如下实值函数μA：Ｕ [ 0，1 ]， u μA( u )所确定的集合 A 为Ｕ上的模糊集合，而称μA为模糊集合A 的隶属函数，μA ( u )称为元素 u 对于A 的隶属度。若A(u) =１，则认为u完全属于A；若A(u) =０，则认为u完全不属于A，模糊集合是经典集合的推广。2.2模糊C均值聚类(FCM)预先给定类别数c，把含有n个样本的数据集分成c个模糊类，用每个类的类别中心代表该类，通过反复迭代运算，逐步降低目标函数的误差值，当目标函数收敛时，聚类完成。目标函数:约束条件：，2.3 加权模糊C均值聚类(WFCM)算法过程与FCM类似，只是目标函数不同，WFCM算法考虑了各样本点对分类的重要性，在FCM算法中加入了权值，称为样本点的密度，本文中采用径向基函数方法来确定，当样本点远离类中心时函数取值很小，此时该样本点对分类的重要性比较小。最常用的径向基函数是高斯核函数 ,形式为目标函数：约束条件：3 聚类分析实例3.1数据准备3.1.1数据表示本文采用数据是上市公司2000-2003年共4年132支股票31个变量的数据进行聚类分析，表1是各变量所代表的含义。表1 数据表示每股收益每股净资产······净利润未分配利润3.1.2数据预处理为了排除各因素变量的单位不同以及数量级间的悬殊差别带来的影响，尽可能的反映实际情况，需要对数据进行无量纲化处理。常用的处理方法有：标准化处理方法和极值处理方法。以下均采用“标准化”处理法。即取其中为标准观测值，其平均值和均方差分别为0和1。式中为第j项指标原始观测值的平均值，为第j项指标原始观测值的均方差。3.1.3 确定聚类个数如前文所述，聚类分析是无监督分类，分类之前并不知道聚多少类是合适的，所以为了保证分类的合理性，首先借助SPSS软件对数据进行系统聚类以确定合理的分类数。谱系聚类图结果显示如下，我们初步选择在距离为5处截取，确定合理聚类数为11类。图1 系统聚类谱系图3.2 借助clementine软件进行K-means聚类为了实现传统聚类与模糊聚类结果的对比，这里首先对数据做了传统的K均值聚类，具体的操作流程如下图2所示图2 clementine实现K-means过程3.2.1 样本在各类中集中程度对模型结果进行查看，得到各类中所包含的样本个数如下图3所示，发现样本主要集中在第5,7,8,9,10类。图3 样本在各类中集中程度3.2.2 原始数据的分类结果图4的最后两列分别是样本所属类别和样本与该类别的