一种改进K―medoids知识聚类算法探究.doc

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
一种改进K―medoids知识聚类算法探究

一种改进K―medoids知识聚类算法探究   摘 要:根据文本信息在聚类过程中的特点构建了一种基于K-medoids的文档聚类方法,并结合文本特征提取KNN算法对训练文本进行测试,该方法首先利用K-medoids在聚类过程中实现简单、收敛速度快的特性,再利用KNN算法在文档特征提取过程中简单、高效的特点,对训练进行聚类划分。实验结果表明,利用该方法在对文档进行聚类时,F1值、耗时及分割数等方面与KNN及CLKNN算法相比都有较大提高 关键词关键词:K-medoids;知识聚类;聚类分析技术 DOIDOI:10.11907/rjdk.161475 中图分类号:TP312 文献标识码:A :1672-7800(2016)008-0013-03 0 引言 聚类分析技术已广泛应用于各大领域,并已在原有基础上针对不同的应用领域进行了改进,提出了相应的算法及模型,大体上可分为网格、层次、密度、层次及划分方法。大数据时代,各类结构化、半结构化的数据资源在快速增长,用户在检索信息过程中的搜索范围也越来越广,聚类分析技术的引入可以有效提高相似信息的分类,使同一类的信息个体具有高度的同质性,使不同类之间的个体具有高度的异质性[1],从而有效提高了用户信息获准率 知识搜索,实际上是将信息按照学科性质、从属关系及层次关系进行组织,根据关键词、关键字及其属性进行分类汇总的过程,通过聚类规则将同属性、高相似度的信息进行分类,有效解决当前大数据集下信息的获准率问题,从而提高知识获取的速度与准确度。K-means聚类方法由于实现简单、收敛速度快而被广泛应用,但由于K值难以估算从而给具体分类带来了困难。大数据集中,为了有效实现数据分类,阮光册在文献[2]中将集对分析同异反系统和文本向量空间模式相结合,提出了一种基于流形结构的聚类分析算法;杨欣欣、黄少滨在文献[3]中通过相关性度量指标Goodman-kruskalτ对特征变量和对象变量的相关性进行衡量,提出了一种高阶层次联合聚类算法;文献[4]中利用二分图聚类算法构造了基于Web数据挖掘的搜索引擎。因此,通过聚类方法将同质性的信息进行聚合,解决知识搜索中的泛在性,对大数据集下的知识搜索相关研究具有重要意义 1 K-medoids聚类算法 聚类是数据挖掘中的一种常用方法,通过聚类将相同特质和具有共同属性的个体归为一簇,在不同的簇中,同质性的个体具有较高的相似度,表现为个体之间的距离较短,异质类个体之间的距离则表现为距离越大,相似度越低。K-medoids聚类算法是一种基于划分的聚类方法[5],相比K-means算法而言,K-medoids算法更容易实现,具有较好的收敛性和时间复杂度,在全局搜索时所得到的效果更好 1.1 算法描述 K-medoids算法广泛应用于大数据集下的文本分类,算法过程是将N个数据对象划分为K个类作为聚类参照中心,对未划分到类中的数据对象按照距离优先原则划分到邻近的簇中,得到初始聚类后,将剩余的对象按距离长短进行重新划分,反复执行这一过程,直到簇收敛。K-medoids聚类算法是基于聚类准则函数的最优原则,使用最接近聚类中心的对象作为类中心,增强了算法的鲁棒性,对小的数据集非常有效[6] 1.2 K-medoids算法过程 输入:K个簇,包含n个数据集 输出:符合条件的K个聚类 在输出的符合条件的K个聚类中,聚类效果通常使用绝对误差标准函数来进行衡量,定义为: 式(1)中,x为簇si中的一个对象,si是聚类中心的第i个簇,k表示簇的数量,C值的大小取决于簇内各对象与中心点的距离,C值越大说明簇?雀鞫韵蟮南嗨评嘣降停?反之亦然 ①从n个数据集中,选k个对象作为聚类的初始中心点;②对离中心点距离较远的对象进行划分,将其分配到附近的簇中;③对每个簇的均值进行重新计算,为每一簇赋予新的值给;④重复②、③步骤,直到类收敛 1.3 K-medoids算法扩展 K-medoids聚类算法在聚类过程中,通过对簇中心点周围的对象进行反复均值计算更新,能够得到较为理想的分类结果。在知识搜索过程中,利用这一思想,通过类别、关键词、关键字、同一性等方式对不同信息资源进行分类汇总,产生初始的类,再利用K-medoids聚类算法对知识的特征码进行聚类分析,直到类收敛,可以有效提高信息知识的分类效果 2 基于K-medoids的聚类构建 2.1 特征提取 在进行聚类前,所有知识信息都是相对独立的,利用KNN算法进行特征提取时根据这一特点进行假设判定:①假设所有的知识信息都是相对独立的,知识信息内容出现的频率和位置无关;②将收集到的知识信息进行抽取映射分组,分成U1,T1;U2,T2;…;UN,TN个组别;③假

文档评论(0)

linsspace + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档