面向流数据的聚类算法改进及其服务化实现.pdfVIP

  • 24
  • 0
  • 约6.49万字
  • 约 56页
  • 2020-12-19 发布于中国
  • 举报

面向流数据的聚类算法改进及其服务化实现.pdf

面向流数据的聚类算法改进及其服务化实现 摘 要 随着工业信息化和传感器网络的飞速发展,在网络监控、工业控制、股票交 易、互联网通信等诸多领域中产生了连续到达、实时变化的数据流。规模巨大的 流数据中蕴含了大量的价值信息,数据挖掘技术因为能够发现海量数据中的有效 信息而成为流数据领域的热点研究对象。其中,实时流数据上的聚类分析是数据 挖掘中的主要热点之一。通过聚类可以将数据集合分割为几个称为簇或者类别的 子集,使同一簇中的对象具有尽可能大的相似性,不同簇的对象具有尽可能大的 相异性。通过聚类分析对数据集合进行合理划分,有助于识别流数据群组中隐含 的模式信息,异常数据和波动事件等等。CluStream 算法提出一种在单遍扫描流 数据时的两阶段聚类框架,在线更新阶段使用微簇快照存储聚类概要信息,并在 离线分析阶段使用金字塔时间框架响应不同粒度的聚类请求。但是其在窗口划分 和簇结构更新时没有考虑历史数据的影响,无法体现新旧数据的重要性差异。同 时其固定的微簇总数也导致其在处理类簇特征演化上存在一定缺陷,没有及时反 映类簇的分裂融合等情况。 本文通过提出一种基于CluStream 的聚类改进算法,在有效识别新旧不同类 簇的同时提升原算法的准确度和性能,并提出

文档评论(0)

1亿VIP精品文档

相关文档