基于数值型和分类型混合属性数据集的聚类算法研究.pdfVIP

基于数值型和分类型混合属性数据集的聚类算法研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于数值型和分类型混合属性数据集的聚类算法研究.pdf

数学技术应用科学 Mathematics Science TechndogyAppfied 基于数值型和分类型混合属性数据集的聚类算法研究· 曹露燕1,蒋晓云2,盂凡荣3 (中国矿业大学计算机学院,江苏徐州221008) 摘要:介绍了数值型和分类型属性的概念以及处理分类型属性的方法,详细探讨了一种处理分类型和数 值型的混合型属性数据集的算法(k—prototypes);在此算法的基础上,提出了一种基于分组选择法确定初始点 的改进算法;并使用实际数据集对改进算法进行了测试,用详尽的数据证明改进算法的正确性和较强的可伸缩 性,最后指出了聚类分析技术的进一步研究的方向. 关键词:数值型和分类型;分组选择法;k—prototypes 中图分类号:F244.0文献标识码:A文章编号:7—5416—2336—9(2006)一0209—06 在企业(如零售、金融、电信)的大型数据库中 时处理数值型和非数值型属性的聚类算法.针对这 蕴含的有用的信息资源促进了知识发现和数据挖 种情况,本文首先介绍了一个能同时处理数值型和 掘的蓬勃发展.聚类作为数据挖掘中一个重要的 分类型属性数据的聚类算法(k—prototypes),然后 组成部分,主要用于在潜在的数据中发现有价值的 指出其存在的不足,在该算法基础上提出了自己的 数据分布和数据模式.目前其研究已深人到数据 改进意见和实现方案,最后,使用实际的数据集测 库、数据挖掘、统计等领域并取得了很大的成就. 试并证明经过改进的算法是正确和有效的. 在数据挖掘中,将物理或抽象对象集合划分成 1概念描述 为由类似的对象组成的多个类的过程被称为聚类 分析(聚类挖掘).目前,对聚类分析最常用的定义 1.1分类域和分类属性 如下:给定d维空间的11,个数据点,把这,t个点分 设A。,A:,…,A。是描述空间.f2的m个属性, 成Ij}个组,即满足最大的组内相似性和最小的组间 而DOM(A。),…,DOM(A。)是上述属性的域.域 相似性,使得不同聚类中的数据尽可能地不同,而 DOM(A』)被定义为分类域,如果它是有限的和无 同一聚类中的数据尽可能地相似…. 序的,例如对于任何a,b(属于DOM(Ai)域),或者 目前,在文献中存在着大量的聚类分析算法, a=b或者Ⅱ!=b.A,是一个分类属性,如果A。, 如K—MEANS算法、DBSCAN算法等,但在实际应 …,A。是分类的,则空间D是分类空间.这里定义 用中,这些算法仅能对数值型属性的数据集进行分 的一个属性域是单一的,不允许有混合值,而且在 类.现实生活中,很多数据对象都包含有非数值型 所有的分类域上还定义了一个特别的值占用来代 属性,如描述病人的smoker属性:抽烟和不抽烟; 表缺失值.为了简化相异度计算,我们不考虑分类 描述地图颜色的map—color属性:红色,黄色,绿 域中的概念包含关系,比如说,汽车和交通工具是 色,粉红色和蓝色等.如果要对上述数据集进行聚 一个域中的分类值,而在概念上汽车也是一种交通 类,一般的聚类分析算法只能取其数值型属性进行 工具. 聚类,即仅使用数据对象的部分属性对数据进行聚 1.2分类对象 类.很显然,这样必然会导致聚类结果的偏差,使聚 and (GowdaDiday1991)中属于力的分类对 类结果偏离真实的结果,因此,人们需要开发能同 象x,在逻辑上代表属性值[A,=菇,]^[A:=石:]^ ·第一作者简介:曹露燕(1982一),女,河南人。在读硕士研究生

文档评论(0)

带头大哥 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档