引入信息增益的层次聚类算法.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
引入信息增益的层次聚类算法.pdf

142 2012 ,48(1) Computer Engineering and Applications计算机工程与应用 引入信息增益的层次聚类算法 刘一鸣,张化祥 LIU Yiming, ZHANG Huaxiang 山东师范大学信息科学与工程学院,济南 25∞14 School of Infonnation Science and Engineering, Shandong Nonnal University, Jinan 250014, China LIU Yiming, ZHANG Huaxiang. New hierarcbical c1ustering metbod using information gain. Computer Engineering and Appli- cations, 2012, 48( 1): 142-144. Abstract: Hierarchical clustering analysis is a very irnpo此ant sul加ct in the fields of pattem recognition and data mining, and has a broad application prospect. Inspired by the idea of selecting the best classification attributes in decision tree algorithm, a novel hierarchi- cal clustering algorithm using infonnation gain is proposed. This algorithm directs 也e attribute weighting in a hierarchical c1ustering by computing the infonnation gains, thereby improving the quality of c1ustering results. The experiment results on UCI machine leaming data sets indicate that it yields better stability compared with the quondam hierarchical clustering algorithm. Key words: hierarchical clustering; infonnation gain; attribute weighting 摘 要:层次聚类分析是模式识别和数据挖掘领域中一个非常重要的研究课题,具有广泛的应用前景.受决策树学习中选择最 佳分类属性的启发,提出一种引入信息增益的层次聚类方法,该方法利用信息增益指导层次聚类中的属性加权,从而提高聚类结 果质量.在UCI数据集上的实验结果表明,该算法性能明显优于原层次聚类算法. 关键词:层次聚类;信息增益;属性加权 DOI: 10.3778/j .issn.1ω2-833 1.2012.0 1.041 文章编号: 1∞2-8331 (2012)01-0142-03 文献标识码:A 中回分类号:TP391.4 1 号|吉 聚类分析是一种重要的数据挖掘技术,是数据挖掘及机 器学习领域的研究热点之一。聚类分析可应用于以下4个基 本方向:减少数据、假说生成、假说检验和基于分组的预测飞 聚类是将整个数据集合划分为一定数目有意义的子集或群组 的数据分析工具I飞设X 为包含N个 x, E 9id 的样例的数据集 合,即 X={x川2 ..., XN} 。则聚类的目标是将X分割成m个 集合(聚类) CC2, …,马,使其满足以下3个条件: (1) Cj * 伊 , i= 1 , 2 ,… , m (2)UC j =X (3) CjnCj = ψ , i * j , i ,j = 1 , 2,… , m 一个好的聚类算法使聚类 Cj 中包含的样例彼此更相 似,与其他聚类中的样例不相似。聚类对识别隐藏结构和 揭示潜在知识有很大帮助,并能较好地理解大量数据中的每 个单独聚类l吨。 聚类算法一般可分为5类:基于层次的方法、基于划分的 方法、基于密度的方法、基于网格的方法和基于模型的方法。 其中基于层次的聚类方法又可以根据层次是自底向上还是自 顶向下形成,进一步分为凝聚层次聚类算法和分裂层次聚类 算法l付。凝聚层次聚类算法首先将每个对象作为一个原子簇, 然后合并这些簇为越来越大的簇,直到所有的对象都在一个 簇中,或者某个终结条件被满足,绝大多数的层次聚类方法都 属于这一类,包括使用最近距离的单连锁法(single Iin

文档评论(0)

yingzhiguo + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5243141323000000

1亿VIP精品文档

相关文档