- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
K-均值算法聚类数的确定.pdf
VA 一嚣 高【新技术产业发展】
K一均值算法聚类数 的确定
刘 丹 高世 臣
(中围地质大学 (北京)信息工程学院 北京 100083)
摘 要: K—means算法是一种基于划分的聚类算法。它的执行时间主要依赖于k值和初始点的选取,但是在实际问题中缺少对K取值的先验信息和有效选取初
始点的方法。提出五种有效的确定K值的方法。这些方法能够根据数据集本身的特性快速 自动选取初始中心并给出初始分类个数。
关键词: 聚类分析 ;K一均值算法:初始分类
中圈分类号:TN911.7 文献标识码 :A 文章编号 :1671--7597 (2011)0320038--02
0引曹 考察。用此方法按样本密度由大到小的顺序考察下去,在每次考察中若发
聚类分析:近几年来,聚类作为数据挖掘的主要方法之一,越来越引 现所考察的点与所有 已选定的凝聚点问的距离都大于d2,便将此点定为新
起人们的关注。聚类的输入是一组未分类的数据 ,而且事先也不知道要分 的凝聚点,否则便不作为凝聚点再选密度仅次于它的点作为考察点,直到
成几类,它通过分析数据,根据一定的分类准则,合理划分数据,从而确 所有样本点考察完毕。
定每个数据点所属的类别。当预先不知道类型数 目,或者用参数估计和非 2.3逐个归类法
参数估计难 以分辨不同类型的类概率密度函数时,就需要采用聚类分析。 一 种选择 了凝聚点又确定 了初始划分的方法,其凝聚点数即为类数
有些聚类分析算法可以自动地确定类的个数K,也可 以给定K作为算法的终 K。首先规定 个‘闽值d。然后选Wl=(y1},计算样本y2与y1的距离D (y2,
止条件。若没有给定K,如何确定K,这是聚类分析中的一个关键问题。现 y1),如其小于d,则归入W1否则建立新的类DJw2={y2)。当轮到样本ye时,
有的聚类算法大致可 以分为:划分方法、层次方法、基于密度的方法、基 已有了K类即,wI,W2,W3,……,WK,而每类 中第一个划入类的样本点分
于网格的方法以及基于模型的方法[1,2,3]。 别为y1],y12,y13,……,Ym 则计算i=l,…,K,若D (yIj,ye)d对所
K一均值聚类分析法:K-均值聚类算法是~种 已知聚类个数的聚类算 有的 D(y.y。)=1,…,K都成立,则建立新类=(y)。否则将Ye归入与
法。指定类个数为K,对样本集合进行聚类,聚类的结果有K个聚类中心来 yl1,y12,…,ylK距离最近 的类别 中
表达,基于给定的聚类 目标函数 (或者说是聚类效果判别准则),算法采 2.4爬山法——最优聚类数的逻辑判定法
用迭代更新的方法,每一次迭代过程都是向目标函数值减少的方 向进行, 在类别数未知情况下使用K一均值算法时,可以假设类别数是逐步增加
最终的聚类结果使目标函数值取得极小值,达到较优的聚类效果 [4]。 的,例如对K=1,2,3,……分别使用该算法。显然准则函数 是艏K的增
K一均值算法的缺点: 加而单调地减少的。如果样本集的合理聚类数为K类,当类别数继续增大
1)K-均值算法聚类数K需要预先给定。 时,相当于将聚类很好的类别又分成予类,$jiJx值虽然继续减少但会呈现
2)算法对初始值 的选取依赖性极大。不同的初始值,结果往往得到 平缓趋势,如果作 —条JK值随K变化的曲线,如下图所示,则其拐点对应的
不同的局部极小值。 类别数就 比较接近于最优聚类数。下图表示C:4是较合适的聚类数。
3)K-均值算法需要不断地进行样本分类调整,不断地计算调整后的
新的聚类中心,因此当类的个数非常大时,算法的时间开销是非常大的。
4)由于将均值点作为聚类中心进行新一轮计算,远离数据密集区的
您可能关注的文档
- 2010年11月世界粗钢产量表.pdf
- 2010年11月世界高炉生铁产量表.pdf
- 2010年11月全国冶金产品出口情况.pdf
- 2010年11月全国冶金产品进口情况.pdf
- 2010年11月全国分省市生铁产量.pdf
- 2010年11月全国分省市粗钢产量.pdf
- 2010年11月全国分省市钢材产量.pdf
- 2010年11月全国分省市铁合金产量.pdf
- 2010年12月世界粗钢产量表.pdf
- 2010年12月世界高炉生铁产量表.pdf
- KQG150露天潜孔钻技术升级的几点尝试.pdf
- LED产业投资热点分析.pdf
- LED新秀:东莞市华胜展鸿电子科技有限公司.pdf
- Lithium Chloride Inhibited Neuronal Apoptosis and Glycogen Synthase Kinase -3β Activities in Hippocampal CA1 Area After Middle Cerebral Artery Occlusion and Reperfusion in Rats.pdf
- LTCC中埋置大功率芯片散热的三维有限元分析.pdf
- Maps.com.hk:获取资讯更轻松.pdf
- March 2011.pdf
- Matlab在微波电路设计中的应用.pdf
- MSCT及重建技术在小肠疾病诊断中的应用价值.pdf
- NAT-PT中地址映射表查找算法的研究与改进.pdf
最近下载
- DG∕TJ 08-2451-2024 电动自行车集中充电和停放场所设计标准.pdf
- 乌有先生历险记原文和挖空学生版.doc VIP
- 医疗器械ISO13485质量管理体系流程图.doc VIP
- 中国移动通信集团湖北有限公司家庭宽带装维一体维护管理指导意见(V21).docx VIP
- 盆腔器官脱垂的中国诊治指南(2023年).docx VIP
- 中国移动通信集团湖北有限公司家庭宽带装维一体维护管理指导意见(V21).docx VIP
- 2025年郑州市第三人民医院医护人员招聘笔试备考试题及答案解析.docx VIP
- 2025年新媒体采编测试题及答案.doc VIP
- 2021年肺动脉高压指南解读.ppt VIP
- 网织增强岩棉板薄抹灰外墙外保温工程技术规程.pdf VIP
文档评论(0)