一种对滑动窗口数据流聚类算法的混合差分研究.docVIP

下载本文档

1
0
约2.62千字
约 4页
2017-12-24 发布于北京
举报
版权申诉

一种对滑动窗口数据流聚类算法的混合差分研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种对滑动窗口数据流聚类算法的混合差分研究　　摘要传统的滑动窗口数据流聚类算法在执行中存在聚类质量较差、效率较低的缺点，而基于混合差分进化的算法，将滑动窗口数据流聚类过程进行划分，一类是在线的时序窗口数据流特征向量生成，另一类是离线的聚类优化。对于在线式滑动窗口，其数据表现为微簇聚合更新与维护，可以通过粒子群算法，以离线微簇数据进行适应度计算，并将种群划分为优势子种群和普通子种群，利用个体适应度值和平均适应度值来进行最优选择，采用迭代法来对个体进行进化，输出最优适应度值的聚类集合。　　关键词滑动窗口数据流混合差分进化聚类　　数据聚类分析是数据挖掘中的重要课题，也是通过对数据进行层次化模型分析，对指数级数据增长下的传统聚类算法的优化，以满足数据流处理的实时要求。比较经典的算法有CluStream，将数据流看作时序读取过程，在数据处理周期内完成聚类。数据流聚类算法是基于聚类半径的增长，数据聚类精度的提升对内存消耗过大而采用的优化算法，其优势在于构建数据流聚类在线、离线框架，满足数据入点、流出点之间数据流处理需要，但由于数据快照窗口的失效数据为实时更新，导致计算机负载过大。基于滑动窗口的数据流聚类算法，能够在占用窗口大小的次线性内存空间中，对数据记录分部展开进行聚类分析. 　　一、数据流聚类算法基础概念明确　　对于混合差分进化下的滑动窗口数据流聚类算法的研究，主要通过在线过程的微簇生成和离线下的混合差分进化算法来实现。需要对相关概念进行界定。一是窗口快照。以某t时刻数据窗口跨度为P，在[t-p，p]时刻内的数据流为DBi为窗口B的一个快照，记作。对于时序滑动窗口，以快照窗口的数据流为顺序构成时序数据流，记为SB，则某时序i的时序滑块窗口数据为：，如果窗口数为n，则时间跨度。对于时序衰减权系数的设定，假设某时刻t的时序窗口衰减权因子为?%^，则，时序衰减权系数W（t）记作：；其中，v为数据流速，为当前滑动窗口时间。对于数据流微簇的设定，将当前时序滑动窗口的微簇计作CF，则，对于数据集，（F，Q）表示为样本属性的一阶、二阶矩阵，流簇样本总数为n，则数据流达到时间为RT1，失效时间为RT2，滑动窗口大小为RW，则：；对于样本聚类权重系数的设定，当某时序数据流为SB，则待识别样本Y，隶属于类别的近邻样本总数为k，则当前样本总数为m，第j个近邻样本进行聚类时，样本聚类权重系数记作l（j），则：，其中?%Z表示为幂指数。对于聚类类别的判定函数，假设某数据集样本类别为，则待识别数据为Y，数据集近邻中属于类别的样本为，近邻样本总数为N，隶属于的近邻样本数为，待识别数据Y的第j个近邻样本的类别判别函数表示为：。　　二、混合差分滑动窗口数据流聚类算法　　（1）算法思想。　　从时序滑动窗口数据集的定义来看，，样本类别数为c，类别标识符为，则当前数据流为DB；假设时序窗口快照的数据集为，则待识别样本为，则满足两个过程：一是窗口快照中的数据为，则记作A[i]，其中包含（n+1）个数据元组；二是时序窗口更新所涉及的快照数据，其存储和失效数据的删除满足；当快照数据流被处理完后将对A[n+1]元组进行删除，令A[j]=A[j+1]，则快照窗口的数据存储于A[j]。可见，对于混合差分算法下的滑动窗口数据流聚集算法的应用，主要从在线和离线两种过程中来完成。在不同数据流流速下，在线聚类是结合时序滑动窗口、快照窗口来对数据流的粒度和流速进行微簇特征向量存储，而离线聚类是对微簇特征向量的数据流粒度进行优化聚类。　　（2）在线聚类算法研究。　　对于微簇特征向量的生成主要依据DBSCAN算法来实现微簇的集合，其方法如下：一是对微簇变量设置并初始化num=0；利用DBSCAN算法，假设对象p的簇半径rp，且w≥?%[?%e，则将p作为候选簇，记作num+1，并从对象集中删除p，利用迭代法对时序滑动窗口数据流进行分类；二是对于滑动窗口n的快照窗口，当p满足时，则对象隶属于核心簇，满足，否则属于孤立核心簇；对于孤立核心簇，当时则需要对其删除，更新孤立簇集合。若时刻下的快照窗口更新周期为T，则，微簇mc满足，删除mc；令权系数，则；最后对微簇数据集特征向量即数据粒度快照信息进行存储。　　（3）离线下数据流聚类优化研究。　　离线下的微簇数据集聚类优化，主要采用混合差分进化算法来提升可执行性。先以粒子群算法为例，就进化算法进行改进。粒子群算法是粒子在空间维度下以特定速度飞行，其位置是动态调整的。假设某粒子群规模为M，空间维度为D，则第i个粒子在第d维空间的位置集合表示为：；粒子速度集合为：；个体位置优化集合：；种群全局位置优化集合为：；则粒子i在第（t+1）时刻的速度及位置更新策略为：；对于表示为粒子的加速系数，对于表示为[0，1