- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于熵权法的混合属性聚类算法
2013 年 11 月 汕头大学学报 (自然科学版) 第 28 卷 第 4 期
Nov. 2013 Journal of Shantou University (Natural Science) Vol.28 No.4
文章编号:1001 - 4217 (2013)04 - 0058 - 08
基于熵权法的混合属性聚类算法
孙浩军,高玉龙,闪光辉,袁 婷
(汕头大学工学院,广东 汕头 515063)
摘 要:K-prototypes 算法是处理混合数据的主要聚类算法,大部分针对混合型数据的聚类
算法都是选择数据集中的一部分数据作为聚类对象,而忽略了这类数据的特殊性与整体性,
为了改进了数据的距离衡量,文中提出了一种新的聚类方法,该方法采用信息熵作为属性的
权值,进行高精度和更加稳定的聚类,最后通过Matlab 编程实现,采用uci 数据集中credit
等数据集进行仿真实验,证明改进算法是正确和有效的.
关键词:K-prototypes ;特殊性;混合数据;信息熵;有效的
中图分类号:TP 274 ;TP 301 文献标识码:A
0 引 言
聚类是将物理或抽象的对象,按照对象间的相似性进行区分和分类的过程,在这一
[1]
过程中没有先验知识指导,因此是一种无监督的分类 . 聚类算法在许多领域都得到了
广泛应用,但是大部分算法都是应用于数值型数据,由于在实际应用中,许多数据集不
仅包含数值属性的数据,同时也包含如地图颜色、几何纹理等分类属性的数据. 而对于
处理分类型数据的聚类算法则少之又少,而且现实世界中的数据大部分是即包含数值型
又包含分类型的数据,所以基于传统的欧式距离的聚类算法难以满足这种混合型数据的
聚类.
[2]
MacQueen 所提出的k-means 方法 是最早、也是最简单的聚类方法,但是该方法
只能对数值属性的对象集进行聚类,无法对分类属性和混合型属性的对象集进行聚类.
[3]
Huang 提出k-prototypes 算法 推广了k-means 方法,使之可以对分类属性和混合型属
[4]
性的数据集进行聚类. 陈宁等进一步提出了模糊k-prototypes 算法 ,并利用引进模糊
聚类算法来提高聚类结果的准确性.
但是上述方法在聚类过程中,均利用分类型属性简单匹配相异度,而忽略了数据的
整体性,将分类型属性的数据转化为数值型属性数据间的基于距离的计算问题,从而解
决了对混合属性数据集的聚类问题. 但是上述方法在对分类属性数据和混合型属性数据
收稿日期:2013 - 05 - 31
作者简介:孙浩军(1963-),男,CCF 会员,博士,教授,研究方向为模式识别、数据挖掘等.
E-mail :haojunsun@stu.edu.cn
基金项目:国家自然科学基金资助项目
第 法 期 孙浩军等 基于熵权法的混合属性聚类算
4 :
您可能关注的文档
- 品牌战略研究规划创意策划计划与执行SP.PPT
- 哈贝马斯论民主的商谈原则与类型-山东社会科学.PDF
- 哈尔滨教育学会-哈尔滨教育研究院.DOC
- 唐代小品文研究-延边大学论文管理系统.PDF
- 唐代诗学兴范畴体系研究之一-广州大学学报.PDF
- 唐伯虎的人生历程及其立名思想-河北师范大学学报.PDF
- 唐山2683例健康体检者中医体质状况调查分析-世界中医药.PDF
- 商场销售与服务心理效应.PPT
- 唐山启动主城区周边13家钢铁企业退城搬迁.PDF
- 啬色园主办可爱幼儿园-AzureWebSitesnet.DOC
- 基于生态绿当量的土地利用结构优化-农业现代化研究-中国科学院.PDF
- 基于激光扫描技术的三维数字电网构建研究-测绘地理信息.PDF
- 基于疾病易感性的中药药效评价及应用何蓉蓉等-暨南大学科技处.DOC
- 基于生态脆弱性评价的-中南林业科技大学学报.PDF
- 基于生态风险分析的耕地质量退化风险评价.PDF
- 基于瞬时弹性成像技术的肝脏脂肪变无创检测新方法.PPT
- 基于社会结构视角的环境友好型社会评价Ⅰ指标体系构建.PDF
- 基于知识论的职业教育实践课程观.PDF
- 基于竞争战略类型的银行战略能力对绩效的影响机制研究-NSFC.PDF
- 基于网络化制造的供应链战略能力规划研究-JournalofNortheastern.PDF
文档评论(0)