一种对滑动窗口数据流聚类算法的混合差分研究.docVIP

一种对滑动窗口数据流聚类算法的混合差分研究.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种对滑动窗口数据流聚类算法的混合差分研究   摘 要 传统的滑动窗口数据流聚类算法在执行中存在聚类质量较差、效率较低的缺点,而基于混合差分进化的算法,将滑动窗口数据流聚类过程进行划分,一类是在线的时序窗口数据流特征向量生成,另一类是离线的聚类优化。对于在线式滑动窗口,其数据表现为微簇聚合更新与维护,可以通过粒子群算法,以离线微簇数据进行适应度计算,并将种群划分为优势子种群和普通子种群,利用个体适应度值和平均适应度值来进行最优选择,采用迭代法来对个体进行进化,输出最优适应度值的聚类集合。   关键词 滑动窗口 数据流 混合差分进化 聚类   数据聚类分析是数据挖掘中的重要课题,也是通过对数据进行层次化模型分析,对指数级数据增长下的传统聚类算法的优化,以满足数据流处理的实时要求。比较经典的算法有CluStream,将数据流看作时序读取过程,在数据处理周期内完成聚类。数据流聚类算法是基于聚类半径的增长,数据聚类精度的提升对内存消耗过大而采用的优化算法,其优势在于构建数据流聚类在线、离线框架,满足数据入点、流出点之间数据流处理需要,但由于数据快照窗口的失效数据为实时更新,导致计算机负载过大。基于滑动窗口的数据流聚类算法,能够在占用窗口大小的次线性内存空间中,对数据记录分部展开进行聚类分析.   一、数据流聚类算法基础概念明确   对于混合差分进化下的滑动窗口数据流聚类算法的研究,主要通过在线过程的微簇生成和离线下的混合差分进化算法来实现。需要对相关概念进行界定。一是窗口快照。以某t时刻数据窗口跨度为P,在[t-p,p]时刻内的数据流为DBi为窗口B的一个快照,记作。对于时序滑动窗口,以快照窗口的数据流为顺序构成时序数据流,记为SB,则某时序i的时序滑块窗口数据为:,如果窗口数为n,则时间跨度。对于时序衰减权系数的设定,假设某时刻t的时序窗口衰减权因子为?%^,则,时序衰减权系数W(t)记作:;其中,v为数据流速,为当前滑动窗口时间。对于数据流微簇的设定,将当前时序滑动窗口的微簇计作CF,则,对于数据集,(F,Q)表示为样本属性的一阶、二阶矩阵,流簇样本总数为n,则数据流达到时间为RT1,失效时间为RT2,滑动窗口大小为RW,则:;对于样本聚类权重系数的设定,当某时序数据流为SB,则待识别样本Y,隶属于类别的近邻样本总数为k,则当前样本总数为m,第j个近邻样本进行聚类时,样本聚类权重系数记作l(j),则:,其中?%Z表示为幂指数。对于聚类类别的判定函数,假设某数据集样本类别为,则待识别数据为Y,数据集近邻中属于类别的样本为,近邻样本总数为N,隶属于 的近邻样本数为,待识别数据Y的第j个近邻样本的类别判别函数表示为:。   二、混合差分滑动窗口数据流聚类算法   (1)算法思想。   从时序滑动窗口数据集的定义来看,,样本类别数为c,类别标识符为,则当前数据流为DB;假设时序窗口快照的数据集为,则待识别样本为,则满足两个过程:一是窗口快照中的数据为,则记作A[i],其中包含(n+1)个数据元组;二是时序窗口更新所涉及的快照数据,其存储和失效数据的删除满足;当快照数据流被处理完后将对A[n+1]元组进行删除,令A[j]=A[j+1],则快照窗口的数据存储于A[j]。可见,对于混合差分算法下的滑动窗口数据流聚集算法的应用,主要从在线和离线两种过程中来完成。在不同数据流流速下,在线聚类是结合时序滑动窗口、快照窗口来对数据流的粒度和流速进行微簇特征向量存储,而离线聚类是对微簇特征向量的数据流粒度进行优化聚类。   (2)在线聚类算法研究。   对于微簇特征向量的生成主要依据DBSCAN算法来实现微簇的集合,其方法如下:一是对微簇变量设置并初始化num=0;利用DBSCAN算法,假设对象p的簇半径rp,且w≥?%[?%e,则将p作为候选簇,记作num+1,并从对象集中删除p,利用迭代法对时序滑动窗口数据流进行分类;二是对于滑动窗口n的快照窗口,当p满足时,则对象隶属于核心簇,满足,否则属于孤立核心簇;对于孤立核心簇,当时则需要对其删除,更新孤立簇集合。若时刻下的快照窗口更新周期为T,则,微簇mc满足,删除mc;令权系数,则;最后对微簇数据集特征向量即数据粒度快照信息进行存储。   (3)离线下数据流聚类优化研究。   离线下的微簇数据集聚类优化,主要采用混合差分进化算法来提升可执行性。先以粒子群算法为例,就进化算法进行改进。粒子群算法是粒子在空间维度下以特定速度飞行,其位置是动态调整的。假设某粒子群规模为M,空间维度为D,则第i个粒子在第d维空间的位置集合表示为:;粒子速度集合为:;个体位置优化集合:;种群全局位置优化集合为:;则粒子i在第(t+1)时刻的速度及位置更新策略为:;对于表示为粒子的加速系数,对于表示为[0,1

文档评论(0)

yingzhiguo + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5243141323000000

1亿VIP精品文档

相关文档