分布式实时日志密度数据流聚类算法及其基于 Storm 实现.docVIP

下载本文档

8
0
约4.57千字
约 10页
2018-08-22 发布于福建
举报
版权申诉

分布式实时日志密度数据流聚类算法及其基于 Storm 实现.doc

1、本文档共10页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

分布式实时日志密度数据流聚类算法及其基于 Storm 实现

分布式实时日志密度数据流聚类算法及其基于 Storm 实现　　【摘要】日志?τ诿扛鱿低忱此担?都是不可忽视的一部分。现阶段构建的日志分析平台对数据的处理响应时间差较大，实时性不能得到保证，因此提出了基于Storm 框架的实时日志密度数据流聚类算法RL-DSCA（Real-time Log density stream clustering algorithm）。该算法综合了经典数据流聚类框架 Clustream和一种基于密度的聚类算法DBSCAN实现了多粒度的数据存储。算法可以实现多线程并行的增量更新。设计RL-DSCA算法基于Storm 的实现方案，通过ELK进行实时数据采集，选用Kafka作为中间件实现数据缓冲，Redis存储中间结果，最后部署 Storm 的拓扑对RL-DSCA算法进行实现。性能分析及实验结果表明： Bolt线程数量的增加不会影响到聚类的效果，RL-DSCA算法达到了较高的精度。　　【关键字】 RL-DSCA ELK Storm Kafka Redis 增量更新　　一、引言　　日志信息可以作为特定指标项的分析源来处理某些特定的信息，将日志数据作为原始数据，这样有助于数据分析的准确性。但是日志数量巨大，如何准确、及时的筛选海量日志中的关键信息成为了亟待解决的问题。　　聚类分析是处理数据流的常用分析手段，本文RLDSCA算法使用两层聚类框架处理数据同时兼顾实时和历史离线数据，并加入了DBSCAN算法处理可能出现的噪声数据和非球形数据，并将其应用到Storm的计算架构。对Storm计算架构设计实验从聚类精度和计算效率方面对RL-DSCA算法的有效性进行了验证。　　二、Storm计算框架　　BackType开发了分布式计算系统Storm，并在2011年被Twitter开源，该系统能够很容易可靠地处理无界持续的流数据，进行实时计算。　　三、聚类算法分析　　3.1 Clustream算法概述　　数据流聚类框架Clustream在二十一世纪初被Aggarwal与Han 等人提出，该框架主要引入了两个概念：簇和时间帧，将聚类过程分为了两类：在线部分（微聚类）、离线部分（宏聚类）。在线部分实时处理新到达的数据，并周期性地存储统计结果；离线部分就利用这些统计结果结合用户输入得到聚类结果。　　微簇信息需要在特定时刻被维护，基本方法就是存储中间结果以供离线阶段查询。实际的应用中，往往近期数据对结果的影响比较大，而对于历史数据仅仅是对结果起到补充的作用，时间帧结构很好的解决了这个问题，它用来划分时间轴并根据粗细程度的不同来区分不同的时刻。不仅满足了用户需求也满足了内存的需求。　　两阶段聚类框架，能适应数据流短时间涌入、有序无穷、单次扫描的特点，并挖掘数据流潜在的演化特征，但是对离群点的识别，非球形数据的聚类处理效果并不理想，有待改进。　　3.2 DBSCAN算法概述　　DBSCAN 是一种基于密度的聚类算法[1]，它通过密度的高低划分簇类，而且对簇类的识别不受噪声数据的影响 [2]。DBSCAN 可以处理高维数据，有效的排除形状大小不规则的簇和噪声对象。　　DBSCAN 对用户定义的参数Eps和MinPts 很敏感，一般靠经验确定[3]。. 　　四、RL-DSCA算法设计　　4.1算法概述　　本文设计的分布式实时日志数据流密度聚类算法RLDSCA将 CluStream 算法和DBSCAN算法相结合。既体现了CluStream框架对流数据处理的优势，又利用了DBSCAN算法克服了CluStream框架对非球形和噪声数据聚类效果不佳的缺点。　　微聚类部分分为两大部分：微簇的实时日志增量更新（局部更新结果存放在Redis）和合并局部更新进行全局微簇增量更新，算法的总体处理过程如图1所示。　　4.2实时局部微簇增量更新全局增量　　微簇的在线更新任务有多个节点负责并执行，节点流程图如图2所示。　　聚类的过程一般分为两个阶段，首先对数据簇的形态进行识别，随后对初始化的数据进行处理，其结果将被发送到BoltB中进行汇总。对核心点进行DBSCAN 聚类。按照DBSCAN 算法的思想，如果两个簇的核心点是一类，那么这两个核心点是互相直接密度可达的，它们代表的簇要归为一类。通过遍历筛选后，最终不属于任何类的点则为噪声对象。　　Storm 框架本身不负责计算结果的保存，在加入CluStream算法框架两层模型和DBSCAN算法后，可以将中间局部增量结果存放在Redis中，以便合并为全局增量。　　微簇的在线维护节点按照Strom滑动窗口触发机制单位时间向合并节点发送在该单位时间内的增量。即发送在该单位时间内生成新微簇与旧微簇增量并将实时结果保存在Redis