基于知识粒度的高属性维稀疏聚类算法.pdfVIP

基于知识粒度的高属性维稀疏聚类算法.pdf

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于知识粒度的高属性维稀疏聚类算法.pdf

华南理工大学学报(自然科学版) JournalofSouth of V01.38No.7 China 第38卷第7期 UniversityTechnology Science 2010 2010年7月 (Natural Edition) July 基于知识粒度的高属性维稀疏聚类算法水 赵洁 肖南峰 陈琼 (华南理工大学计算机科学与工程学院,广东广州510006) 摘要:目前的高属性维稀疏数据算法大多面向二态数据,而且没有聚类结果的评价方 法,给应用带来很大局限.针对这些问题,文中提出了一种基于知识粒度的高属性维聚类 算法.首先通过设计面向数据稀疏特征的半模糊聚类算法对数据进行离散化,并基于此给 出稀疏相似度和初始等价关系的定义;然后设计可变精度的二次聚类模型对初始聚类结 果进行修正,使算法具有较强的抗噪声能力;最后结合应用领域定义一种新的聚类质量评 价模型.实验证明,该算法可提供多粒度分析结果,准确度更高,得到的聚类结果能真实反 映数据的特征. 关键词:知识粒度;高属性维稀疏数据;初始等价关系;不可区分度;聚类质量评价 中图分类号:13:391 高维稀疏数据在高维聚类中经常遇到,如大型 的现象出现,导致算法的精度下降.文献[9]中提出 客户数据分析,文本挖掘的分析,Web日志挖掘中 了数据转换的方法,而该方法仍需设置阈值,转换后 的会话、用户聚类等.许多聚类算法在低属性维情况 会出现0值数据含义不清的情况. 下显示了较好的聚类能力,但一般聚类算法中所使 当数据非常稀疏,基于Rough集聚类所得结果 用的基于距离度量的相似性,在高维数据中遭遇 会出现粒度很小的情况.文献[5]中定义了初始相 “维度困扰”,无法正确反映对象之间真正的相似关 似关系之间的相似度,进行二次聚类对初始等价关 系,从而产生错误的聚类结果.同时,数据规模的大 系进行修正,在实验中发现该方法对数据的顺序敏 小,数据的维数,数据的稀疏性和噪声都会增加聚类 感,只适用于特殊情况,适用范围很窄.文献[4]中 的难度¨。2J.目前高属性维数据处理方面的研究取 提出采用反复对聚类结果求精的方法,实验发现该 得了一些进展,但聚类的结果会受到影响,而且计算 方法的代价较高,而效果并不佳.这些算法过程中都 量较大,聚类效果不是很好j. 需要设定多个阈值,但阈值的选择带有很大的主观 性,给算法带来较大不稳定性. 文献[4.6]中采用Rough集理论观点聚类,但 该方法同时处理数值属性和字符属性的数据,不完 文献[10]中指出聚类算法的聚类结果有一定 全适用于高维稀疏数据.文献[5-8]中提出的针对的不可预见性,在实际应用中应根据数据类型选择 高维稀疏数据的聚类算法,均针对二值数据,给算法 合适的聚类算法(和恰当的相似性度量方式),以取 的应用带来很大的局限性,很多实际问题的数据难 得最佳的聚类效果.基于这种思想,文中结合粗糙集 以转化为二态变量,或者转化为二态变量后,有失真 和粒计算等理论,提出的一种新的基于知识粒度的 收稿日期:2009.1I.25 创新人才培养计划(育苗1=程)项目(100070) 163corn 第7期 赵洁等:基于知识粒度的高属性维稀疏

文档评论(0)

heroliuguan + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8073070133000003

1亿VIP精品文档

相关文档