基于衰减窗口与剪枝维度树实时数据流聚类.docVIP

下载本文档

5
0
约1.27万字
约 24页
2018-08-30 发布于福建
举报
版权申诉

基于衰减窗口与剪枝维度树实时数据流聚类.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于衰减窗口与剪枝维度树实时数据流聚类

基于衰减窗口与剪枝维度树实时数据流聚类　　（武汉科技大学计算机科学与技术学院, 武汉 430081）　　　　摘要：　　提出一种基于衰减窗口的实时数据流聚类算法PDStream。算法首先对数据空间进行网格划分，采用改进的维度树结构维护和更新数据流的摘要信息，设计了一种周期性剪枝策略，周期性地剪去维度树中的稀疏网格，最后采用深度优先搜索算法在线处理聚类请求。基于人工数据集和真实数据集的实验表明，PDStream算法可以有效地发现数据流中任意形状的聚类，内存消耗少,具有较好的计算精度。　　关键词：数据流；网格聚类；衰减窗口；维度树；剪枝策略　　中图分类号：TP311文献标志码：A 　　文章编号：1001-?B3695(2009)04-?B1331-?B04 　　　　Real-time data stream clusteringbased on damped window and pruning dimension tree 　　　　ZHANG Xiao-long, ZENG Wei 　　　　(School of Computer Science Technology, Wuhan University of Science Technology, Wuhan 430081, China) 　　　　Abstract: 　　This paper proposed a novel real-time data stream clustering algorithm PDStream, which was based on damped window. PDStream firstly divided data space into grids, then used an improved dimension tree structure to maintain and update the data stream summary statistics. Designed a pruning strategy to prune the sparse grids in dimension tree periodically. Finally used the depth first search (DSF) method to deal with online clustering request. The experimental results on synthetic dataset and real dataset demonstrate that PDStream has the advantages of discovering clusters of arbitrary shape effectively, low memory consumption, preferable precision. 　　Key words：data stream; grid clustering; damped window; dimension tree; pruning strategy 　　　　随着计算机技术和传感器网络的飞速发展，在网络监控、工业控制、股票交易、互联网通信等诸多领域中产生了连续到达、实时变化的海量数据序列。这种以实时方式快速到达的海量数据称为数据流，它是实时、连续、有序的数据序列，每个数据出现的顺序、速率与时刻均不可控制[1]。实际应用中迫切需要从这种新的数据形态中获取有价值的信息和知识。针对数据流模型的数据挖掘和知识发现由此而成为重要的研究课题[1~4]，数据流聚类作为知识发现的重要手段得到了深入的研究。与传统聚类一样，数据流聚类按照对象间的相似性，将数据流中的数据划分成一个或多个类，使得类内数据具有较高的相似度，类与类之间的数据具有较低的相似度。在数据流环境下进行聚类分析对算法提出了新的要求：对数据流的扫描次数仅限于单遍；数据处理的速度不能低于数据流的流速；算法空间复杂度一般要求在O(poly(log N))范围内；挖掘结果随数据流不断流入而增量更新。由于以上要求，传统的聚类算法不能直接应用于数据流。　　?ケ疚慕樯芰耸?据流聚类的相关研究及PDStream算法的思路，给出了本文算法所使用的基本概念、定义和基于衰减窗口模型的数据流聚类及剪枝策略，并对仿真数据集和真实数据集进行实验比较分析。　　1 相关研究　　?ツ壳笆?据流的聚类分析都是基于某种特定时间窗口进行的，常用的窗口模型有三种，即界标窗口、滑动窗口和衰减?┐翱凇? 　　?ソ绫甏翱谀Ｐ拖碌木劾喽韵笪?从数据流开始到当前时刻的所有数据，界标窗口一般随着数据流进行而不断增加。G