基于聚类的属性约简方法①-计算机系统应用.PDFVIP

基于聚类的属性约简方法①-计算机系统应用.PDF

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于聚类的属性约简方法①-计算机系统应用.PDF

2009 年 第 5 期 计 算 机 系 统 应 用 ① 基于聚类的属性约简方法 A Method of Attribute Reduction Based on Clustering 陈 源 曾德胜 (罗定职业技术学院 电子信息系 广东 罗定 527200) 谢 冲 (深圳华为技术有限公司 广东 深圳 518000) 摘 要: 针对现有的属性约简方法在约简的过程中与用户交互过程太少的问题,提出了属性距离的定义及其基 于聚类的约简方法。首先给出了属性依赖度和相对依赖度的定义,然后根据用户给定参数和由属性相 对依赖度计算出的属性距离对属性进行聚类,将区分能力相似的属性聚集到同一个类中,最后从每个 类中选取出属性组成约简属性集。实验结果表明:该方法比以往的属性约简方法有更好的交互性能, 能通过用户的参数,约简出接近用户需求的属性集。 关键词: 数据挖掘 属性约简 聚类 属性距离 1 引言 得到这样的属性明显作用不大,所以不少用户想得 属性约简是一项很有意义的工作,一方面通过对 到一些“例外的”属性。例如:网上商店的 VIP 顾 数据库的属性约简可以为后面的数据挖掘和知识发现 客群的数据中,有客户 ID,姓名,年龄,电话等等 工作减少工作量,另一方面属性约简可以为用户决策 属性。如果依据单个属性的区分能力来进行属性约 提供重点和参考依据。作为数据挖掘的前期工作,属 简,可能得到的会是“客户身份证号码”或是“客 性约简得到的结果也应该尽量满足用户的兴趣。不同 户 ID”等这些表示类型的属性,或者另外一些区分 用户有不同的要求:有些用户要求属性子集的区分能 能力比较强的属性。这些属性单个区分能力都很强, 力一定要达到 100%,约简属性集的属性个数在一定 但是对用户来说因为都是众所周知的属性所以用处 范围即可;有些用户要求最后得到的约简属性子集中 不大。如果从属性之间的联系出发来进行属性约简 的属性个数尽可能的少,但是属性子集的区分能力不 就能找到一些“例外属性”:例如“年龄、籍贯、学 用达到 100%只要在用户认可的范围内即可。例如, 历”这样一个属性集。虽然这个属性集里的每个属 某个数据库有 100 条属性,如果要得到区分能力为 性单个区分能力都不强但是合在一起就能达到一个 100%的约简属性集,那么可能最后只能得到一个 20 比较强的区分能力,而且这样的约简属性集是用户 个属性的属性集。可是如果用户对最后约简结果的区 比较感兴趣的。 分能力放松一些,可能用户就能得到一个有含 10 个 对于用户的这些要求,我们提出了基于聚类的属 或者数量更少的约简集。那么对于那些对区分能力要 性约简方法,提供了用户交互的平台。该方法利用属 求不太严格,但是希望能得到一个数量比较少的约简

文档评论(0)

shiyouguizi + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档