一种基于模糊数学思想K均值算法.docVIP

下载本文档

10
0
约3.42千字
约 7页
2018-08-13 发布于福建
举报
版权申诉

一种基于模糊数学思想K均值算法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种基于模糊数学思想K均值算法

一种基于模糊数学思想的K均值算法　　摘要：随着云计算、移动计算等互联网技术的快速发展，海量数据分析已成为企业战略决策、营销推广的基础，海量数据挖掘愈显重要。传统的K均值算法作为一种硬聚类算法存在诸多问题，例如数据划分武断、准确率较低等。引入模糊数学思想，提出了一种模糊K均值算法，基于隶属度关系对数据进行了有效的聚类分析，以提高数据挖掘的准确度。　　关键词：模糊数学；K均值；硬聚类；隶属度　　DOIDOI：10.11907/rjdk.161041 　　中图分类号：TP312 　　文献标识码：A 文章编号：1672-7800（2016）005-0041-03 　　0 引言　　随着互联网技术的快速发展，多媒体图像、Web文档、影像视频等海量数据大量涌现，在丰富人们生活的同时，也给检索带来了巨大的工作量。采用自动化、智能化、模式化的聚类分析方法，已经成为海量数据应用研究的热点。K均值作为一种聚类算法，其思想和应用执行过程较为方便，一直以来受到互联网企业青睐，在入侵检测、图像处理、视频聚类、文本数据挖掘、电子商务推荐、遥感信息识别、软件聚类等领域得到了广泛应用，取得了较好的效果[1-3]。随着对K均值算法研究的深入，算法得到了极大的改进。　　王敞等[4]分析了K均值聚类算法存在中心设置容易陷入局部最优化等问题，提出了一种基于遗传算法的K均值聚类算法，能够有效结合遗传算法寻找全局最优。在自适应交叉和变异操作中引入K均值操作，克服了传统K均值算法的局部性和敏感性，能够实现较好的聚类效果。陈宗海等[5]分析了聚类算法强化学习过程中，连续状态空间对自适应划分方法存在的缺点，提出了一种基于节点生长的K均值聚类算法，分别给出了离散动作和连续动作下强化学习方法的执行步骤，实验结果显示，该方法可以自动调整划分的精确度、优化学习最佳策略。高滢等[6]提出了一种半监督K均值多关系数据聚类算法，该算法在K均值算法的基础上，改进了类簇的选择方法和数据对象之间的相似性度量方法，将其应用于多关系的半监督学习过程中，充分利用标记数据、对象属性，提高了K均值算法的准确度。陶新民等[7]详细地分析了K均值算法存在的缺点，提出了一种改进的粒子群优化的K均值混合聚类算法。该算法引入小概率随机变异操作，以便能够增强种群的多样性，提高混合聚类算法的全局搜索能力；根据群体适应度方差确定K均值算法操作的时机，增强局部精确搜索能力，缩短算法的收敛时间。王莉等[8]分析了粗k均值聚类算法易受随机初始聚类中心和离群点的影响，导致出现一致性和无法收敛的问题，提出了一种改进的粗K均值聚类算法。该算法能够选择潜能最大的K个对象作为聚类中心，基于其它数据对象和中心之间的距离判定数据归属类簇，提高了算法准确度，克服了离群点的不利影响。胡伟等[9]分析了K均值算法随机指定不同的聚类个数而导致聚类错误率较高的问题，集合层次划分算法，提出了一种改进的层次K均值聚类算法，能够自底向上聚类分析，形成一棵树型结构，并且在树形结构上自动选择聚类。实验结果表明，该聚类提高了数据分析的准确度。赵冬玲等[10]整合网格聚类和K均值聚类算法优势，提出一种基于网格的K均值聚类算法，改进了算法中计算密度阈值的函数，可以有效降低算法的低凝聚度，提高数据聚类分析效率。　　传统聚类算法对初始化的聚类中心比较敏感，并且随着初始化聚类中心的不同，具有不同的聚类结果，因此需要根据经验设置聚类中心，很容易陷入局部最优化。另外，传统的K均值算法属于硬划分，每个对象都归属于一个具体的类簇，降低了算法的准确度。为了解决上述问题，本文引入模糊聚类思想，提出一种模糊K均值聚类算法。实验结果表明，该算法能够有效提高聚类的准确度。　　1 背景理论　　在聚类算法执行过程中，可以对公式（9）和公式（10）进行迭代执行，得到一个具体的模糊K均值聚类算法，在实际的数据集划分过程中使用。　　本文基于模糊思想的K均值聚类算法描述如下：算法输入：簇数目K，参数b，包含N个数据对象的数据集。　　算法输出：K个簇。　　算法步骤：①采用随机初始法为数据集设定K个簇，并指定每个簇的中心为mi；②计算数据集中每个数据对象的隶属函数，计算方法为公式（10）；③基于步骤②的隶属度函数，计算各个簇的中心值mi，计算簇中心采用公式（9）；④遍历数据集中每个数据对象，当隶属度不再发生变化时，算法终止；否则返回步骤②。　　3 实验与结果分析　　3.1 实验数据与环境　　系统实验工具为Matlab2012程序处理平台，实验环境采用的服务器为一台酷睿双核PC，CPU型号为i3-2310M，其主频为2.10GHz，内存为4G，操作系统为Win7。　　算法实验数据采用Lang收集的20-NG数据集，使用BoW工具对数据集进行预