面向流数据的聚类算法改进及其服务化实现.pdfVIP

下载本文档

24
0
约6.49万字
约 56页
2020-12-19 发布于中国
举报

面向流数据的聚类算法改进及其服务化实现.pdf

面向流数据的聚类算法改进及其服务化实现摘要随着工业信息化和传感器网络的飞速发展，在网络监控、工业控制、股票交易、互联网通信等诸多领域中产生了连续到达、实时变化的数据流。规模巨大的流数据中蕴含了大量的价值信息，数据挖掘技术因为能够发现海量数据中的有效信息而成为流数据领域的热点研究对象。其中，实时流数据上的聚类分析是数据挖掘中的主要热点之一。通过聚类可以将数据集合分割为几个称为簇或者类别的子集，使同一簇中的对象具有尽可能大的相似性，不同簇的对象具有尽可能大的相异性。通过聚类分析对数据集合进行合理划分，有助于识别流数据群组中隐含的模式信息，异常数据和波动事件等等。CluStream 算法提出一种在单遍扫描流数据时的两阶段聚类框架，在线更新阶段使用微簇快照存储聚类概要信息，并在离线分析阶段使用金字塔时间框架响应不同粒度的聚类请求。但是其在窗口划分和簇结构更新时没有考虑历史数据的影响，无法体现新旧数据的重要性差异。同时其固定的微簇总数也导致其在处理类簇特征演化上存在一定缺陷，没有及时反映类簇的分裂融合等情况。本文通过提出一种基于CluStream 的聚类改进算法，在有效识别新旧不同类簇的同时提升原算法的准确度和性能，并提出

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

面向流数据的聚类算法改进及其服务化实现.pdfVIP