一种改进K―medoids知识聚类算法探究.doc

下载文档 降价啦

6
0
约5.59千字
约 10页
2017-06-10 发布于福建
举报
版权申诉
保障服务

一种改进K―medoids知识聚类算法探究.doc

1、本文档共10页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

一种改进K―medoids知识聚类算法探究

一种改进K―medoids知识聚类算法探究　　摘要：根据文本信息在聚类过程中的特点构建了一种基于K-medoids的文档聚类方法，并结合文本特征提取KNN算法对训练文本进行测试，该方法首先利用K-medoids在聚类过程中实现简单、收敛速度快的特性，再利用KNN算法在文档特征提取过程中简单、高效的特点，对训练进行聚类划分。实验结果表明，利用该方法在对文档进行聚类时，F1值、耗时及分割数等方面与KNN及CLKNN算法相比都有较大提高关键词关键词：K-medoids；知识聚类；聚类分析技术 DOIDOI：10.11907/rjdk.161475 中图分类号：TP312 文献标识码：A ：1672-7800（2016）008-0013-03 0 引言聚类分析技术已广泛应用于各大领域，并已在原有基础上针对不同的应用领域进行了改进，提出了相应的算法及模型，大体上可分为网格、层次、密度、层次及划分方法。大数据时代，各类结构化、半结构化的数据资源在快速增长，用户在检索信息过程中的搜索范围也越来越广，聚类分析技术的引入可以有效提高相似信息的分类，使同一类的信息个体具有高度的同质性，使不同类之间的个体具有高度的异质性[1]，从而有效提高了用户信息获准率知识搜索，实际上是将信息按照学科性质、从属关系及层次关系进行组织，根据关键词、关键字及其属性进行分类汇总的过程，通过聚类规则将同属性、高相似度的信息进行分类，有效解决当前大数据集下信息的获准率问题，从而提高知识获取的速度与准确度。K-means聚类方法由于实现简单、收敛速度快而被广泛应用，但由于K值难以估算从而给具体分类带来了困难。大数据集中，为了有效实现数据分类，阮光册在文献[2]中将集对分析同异反系统和文本向量空间模式相结合，提出了一种基于流形结构的聚类分析算法；杨欣欣、黄少滨在文献[3]中通过相关性度量指标Goodman-kruskalτ对特征变量和对象变量的相关性进行衡量，提出了一种高阶层次联合聚类算法；文献[4]中利用二分图聚类算法构造了基于Web数据挖掘的搜索引擎。因此，通过聚类方法将同质性的信息进行聚合，解决知识搜索中的泛在性，对大数据集下的知识搜索相关研究具有重要意义 1 K-medoids聚类算法聚类是数据挖掘中的一种常用方法，通过聚类将相同特质和具有共同属性的个体归为一簇，在不同的簇中，同质性的个体具有较高的相似度，表现为个体之间的距离较短，异质类个体之间的距离则表现为距离越大，相似度越低。K-medoids聚类算法是一种基于划分的聚类方法[5]，相比K-means算法而言，K-medoids算法更容易实现，具有较好的收敛性和时间复杂度，在全局搜索时所得到的效果更好 1.1 算法描述 K-medoids算法广泛应用于大数据集下的文本分类，算法过程是将N个数据对象划分为K个类作为聚类参照中心，对未划分到类中的数据对象按照距离优先原则划分到邻近的簇中，得到初始聚类后，将剩余的对象按距离长短进行重新划分，反复执行这一过程，直到簇收敛。K-medoids聚类算法是基于聚类准则函数的最优原则，使用最接近聚类中心的对象作为类中心，增强了算法的鲁棒性，对小的数据集非常有效[6] 1.2 K-medoids算法过程输入：K个簇，包含n个数据集输出：符合条件的K个聚类在输出的符合条件的K个聚类中，聚类效果通常使用绝对误差标准函数来进行衡量，定义为：式（1）中，x为簇si中的一个对象，si是聚类中心的第i个簇，k表示簇的数量，C值的大小取决于簇内各对象与中心点的距离，C值越大说明簇?雀鞫韵蟮南嗨评嘣降停?反之亦然 ①从n个数据集中，选k个对象作为聚类的初始中心点；②对离中心点距离较远的对象进行划分，将其分配到附近的簇中；③对每个簇的均值进行重新计算，为每一簇赋予新的值给；④重复②、③步骤，直到类收敛 1.3 K-medoids算法扩展 K-medoids聚类算法在聚类过程中，通过对簇中心点周围的对象进行反复均值计算更新，能够得到较为理想的分类结果。在知识搜索过程中，利用这一思想，通过类别、关键词、关键字、同一性等方式对不同信息资源进行分类汇总，产生初始的类，再利用K-medoids聚类算法对知识的特征码进行聚类分析，直到类收敛，可以有效提高信息知识的分类效果 2 基于K-medoids的聚类构建 2.1 特征提取在进行聚类前，所有知识信息都是相对独立的，利用KNN算法进行特征提取时根据这一特点进行假设判定：①假设所有的知识信息都是相对独立的，知识信息内容出现的频率和位置无关；②将收集到的知识信息进行抽取映射分组，分成U1，T1；U2，T2；…；UN，TN个组别；③假