一种多粒度增量属性的聚类方法.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种多粒度增量属性的聚类方法 1 基于密度峰值聚类的聚类算法 聚类分析是研究对象分类的统计分析方法,是数据结构中最重要的概念。作为一种非监督的挖掘算法技术手段,它被广泛应用于许多实际应用中。它的优点是它不需要标记数据信息,因此计算量是可以增加的。 现在数据的规模、种类、速度和复杂度都远远超过了人脑的认知能力, 如何有效完成对大数据的认知, 给传统聚类算法也带来了巨大挑战 近年来, 对大数据有效信息的获取需求越来越高, 增量式方法在数据挖掘中尤其是在聚类分析中变得非常流行, 解决动态数据集的聚类逐渐成为一个新的研究方向.如今, 研究者们已经提出了一些增量聚类算法, Zhang C 不过上述的增量聚类研究都是基于数据对象增加而出现的, 目前针对属性向量增长的研究相对较少.属性就是概念的内涵, 是针对对象不同角度的认识.在实际生活中第一次观察某一对象, 并不能得到其全部的信息, 随着研究的深入, 对于该对象不同方向的认识会更加的清晰, 对于这种对象属性增长的情况, 目前并没有很好的方法对其进行处理. 基于这样的一个问题, 随着人工智能的兴起, 粒计算在数据挖掘领域应用越来越多, 专家学者们也就发现了粒计算与聚类分析之间的相关关系 数据的井喷导致单纯的粒度计算已经不能对数据进行有效地挖掘, 有些学者开始考虑将多个粒度的思想与聚类算法相结合来处理问题.Zhang H B 随着大数据时代的来临, 数据和环境无时无刻不在发生变化, 传统的粒度聚类算法, 其往往只能适用于静态数据集的聚类, 在处理动态的增量数据时将造成前期聚类结果可靠性的丧失, 而如果重新进行聚类必然会造成效率低下和计算资源的急速增长 本文以粒计算等处理不确定性问题的方法, 提出一种多粒度增量属性的聚类方法对数据属性增长的聚类问题进行求解.本方法利用密度峰值算法 2 相关定义 2.1 不确定性集u的归一化处理 设有n个待聚类数据对象, 每个数据对象由l个属性粒来表示, 根据实时数据构造矩阵: 在不确定性的数据集U中, 属性粒为m 显而易见, 不同的粒可能具有不同的量纲, 因此需要对属性粒进行归一化处理, 相应的计算公式, 如公式 (1) 所示: 其中i∈[1, n], j∈[1, l]. 粒度层g 如图1所示, 在粒度的增量过程中, g 2.2 基于不同粒度增量属性的聚类方法 本文提出的多粒度增量属性聚类方法流程如图2所示. 如图2中所示, 本文的多粒度增量属性聚类方法首先利用初始聚类算法 (初始聚类算法 (ICM) 详细描述在2.1节) 将初始的粒度g 算法1.多粒度增量属性聚类方法 (Multi-Granularity In-cremental Attribute Clustering M ethod, M GIAC) 3 基于密度峰值聚类算法的多粒度增量属性聚类算法 人们在分析问题时往往从不同的角度、不同的层次触发, 其主要是大脑在多次处理同一问题时, 随着时间环境等变化, 会自行的分析并利用经验和专业知识去刻画与对象与之相应的认识, 即每一次看待同一个问题, 在上一次认识的基础上都可能出现新的发现. 本文所提出的多粒度增量属性聚类算法分为两个部分:第一部分为初始聚类 (图2中矩形虚线部分) , 主要采用密度峰值聚类算法 3.1 初始集合 在本文中初始聚类文献 算法2.初始聚类算法 (Initial clustering method, ICM) 3.2 增量属性聚类 在实际生活中, 人们对于不同事物的认识, 往往是渐进式的, 首先是对于一个对象的模糊刻画, 然后随着时间和环境的改变, 出现了不同方面的认知, 使得对象的认识更加的清晰, 即人类认知不是机械的掌握一个粒度上, 而是通过对每个粒度的信息的掌握, 以多粒度的处理方式将信息进行细化、更新, 达到了对事物的结构化认识.同时长期与你生活的人, 往往在很多地方有着相似性, 例如从事的职业或者生活习惯等, 那么在对于外界而言, 可以把你们认为是同一类人, 由此我们将这两种思想, 借鉴到我们的增量属性聚类算法中. 在这项工作中, 随着时间或环境的变化, 在某一时刻出现了新的属性粒集合g 利用公式 (2) 计算G 然后统计对象x 算法3.增量属性聚类算法 (Incremental attribute cluste-ring method, IAC) 4 密度峰值聚类算法的时间 本文的算法采用C++语言并在工具Visual Studio 2012上实现, 所有实验都在内存为8G RAM、CPU频率为2.70GHz计算机上运行. 在本节中, 在UCI上的一些真实数据集验证了本文提出的方法.表2给出了关于数据集的信息.Iris 如表3所示, 以Iris为例, 首先利用密度峰值聚类算法 如表3中所示, Time (MGIA

文档评论(0)

lgjllzx + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档