基于动态网格数据流聚类分析.docVIP

下载本文档

3
0
约1.11万字
约 21页
2018-08-29 发布于福建
举报
版权申诉

基于动态网格数据流聚类分析.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于动态网格数据流聚类分析

基于动态网格数据流聚类分析　　 (国防科学技术大学信息系统与管理学院，长沙 410073) 　　?? 　　摘要：提出的增量式数据流聚类算法DGCDS结合网格和密度技术，能够得到任意形状的聚类，通过改进网格密度的计算方式，解决了现有网格算法中丢失数据空间影响信息的问题,并且实现了关键参数的自适应设置，减小了人工参数对聚类结果的影响。　　?す丶?词：动态网格；网格密度；数据流聚类；聚类参数　　?ぶ型挤掷嗪牛?TP391文献标志码：A 　　文章编号：1001-?B3695(2008)11-?B3281-?B04 　　?? 　　Dynamic grid-based clustering over data stream 　　?? 　　HE Yong, LIU Qing-bao 　　?? 　　(College of Information System Management, National University of Defense Technology, Changsha 410073, China) 　　?? 　　Abstract:This paper presented an incremental data stream clustering algorithm(DGCDS) based on grid and density,which discovered clusters with arbitrary shape. It solved a problem that losing space influence of data in some of grid-based algorithms with improving the method of density calculation, and this algorithm also set key parameter automatically to reduce the influence of factitious parameter. 　　??Key words：dynamic grid; grid density; datastream clustering; clustering parameter 　　?お? 　　0引言?? 　　随着硬件技术的飞速发展，人们获取数据的能力越来越高，获取数据的领域越来越广，数据形态也从静止的数据转为海量、源源不断的数据流数据。比如通信领域的通话记录数据流、网络监控中的数据包流，金融领域和零售企业的交易数据流，以及近几年发展起来的传感器网络等产生的大量数据流。?? 　　数据流一经提出就引起了研究者的广泛关注。目前，数据流研究大致可分为两个方面：数据流管理系统(data stream management system,DSMS)和数据流挖掘[1]。数据流聚类由于在网络监控、银行交易数据分析等方面的重要应用价值而成为数据流挖掘的一个重要研究方向，已提出多种一次性扫描聚类算法，如STREAM算法[2]、CluStream算法[3]和HPStream算法[4]，以及基于它们的一些衍生算法。但总的来说，现有数据流算法基本上都是对静态数据集算法的改进。?? 　　　　1相关研究?? 　　数据流的特性要求算法必须是内存限制下的实时增量更新算法。第一个增量更新聚类算法是用于数据仓库的IncrementalDBSCAN算法[5]，然而该算法仅适用于处理数据仓库这种相对稳定的数据流，不能处理变化很快的数据流。同时为了得到任意形状的聚类，要求获得整个数据流的信息，这在内存有限的情况下是无法做到的。L.OCallaghan等人[2]提出的STREAM算法采取分而治之(divide and conquer)的思想，将数据流划分为多个段，算法对每段分别聚类。该算法在整个数据流上进行计算，每次都要积累一定数目的数据后才进行处理，是一个数据流上的静态算法，因此不能反映出数据流的变化情况。Aggarwal等人[3]提出的CluStream算法将数据流聚类分为在线聚集和离线分析两部分。在线过程对数据流进行初级聚类；离线过程根据用户需求对在线得到的初级聚类进行分析。在此基础上，Aggarwal等人[4]在2004年又提出了HPStream算法。该算法采用投影的方式解决数据流的高维聚类问题，动态地选择使聚类体积最小的那些维与聚类关联，实现了一个子空间的聚类算法，并使用衰减因子随时间推移不断衰减历史数据，并在聚类数目过多时，删除最早加入的聚类。CluStream和HPStream算法都采用了K-means思想，得到的聚类结果通常都是球形的，不能得到任意形状的聚类。朱蔚恒等人[6]提出基于密度与空