基于Storm的实时大数据分析系统的研究与实现-软件工程专业论文.docxVIP

基于Storm的实时大数据分析系统的研究与实现-软件工程专业论文.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Storm的实时大数据分析系统的研究与实现-软件工程专业论文

上海交通大学 学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下, 独立进行研究工作所取得的成果。除文中已经注明引用的内容外, 本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。 对本文的研究做出重要贡献的个人和集体,均已在文中以明确方 式标明。本人完全意识到本声明的法律结果由本人承担。 学位论文作者签名: 日期: 年 月 日 上海交通大学 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规 定,同意学校保留并向国家有关部门或机构送交论文的复印件和 电子版,允许论文被查阅和借阅。本人授权上海交通大学可以将 本学位论文的全部或部分内容编入有关数据库进行检索,可以采 用影印、缩印或扫描等复制手段保存和汇编本学位论文。 保密□,在 年解密后适用本授权书。 本学位论文属于 不保密?。 (请在以上方框内打“√”) 学位论文作者签名: 指导教师签名: 日期: 年 月 日 日期: 年 月 日 基于 Storm 的大数据实时分析系统研究与实现 摘 要 以 Storm、Spark 等为代表的实时计算技术是目前大数据处理领域 的一个研究热点。本文以实验室承担的某省交通物流云计算平台建设 项目为背景,该平台包括基于批处理的大数据分析服务和基于流式计 算系统 Storm 所构建的实时数据处理服务。然而,Storm 在实际应用中 仍然存在一些问题:例如,默认调度器所采用的轮询分配策略将导致 工作节点间出现负载不均衡;同时默认调度器单一的调度策略不能满 足灵活多变的业务需求;而 Nimbus 控制节点存在的单点失效问题, 容易导致 Storm 集群中出现任务提交、分配的失败。 针对上述问题,本文通过分析交通物流云计算平台中实时数据处 理的需求,在研究流式计算系统 Storm 和相关技术的基础上,设计并 实现了一个基于 Storm 的大数据实时分析系统。该系统为物流企业的 SaaS 应用提供实时的数据分析处理服务,并解决了 Storm 中默认调度 器工作节点任务分配不均匀、调度策略单一和 Nimbus 控制节点单点 失效的问题。测试及应用的情况表明,该系统是可行且有效的。 与同类型的系统相比,本文工作具有以下特点: 1) 为了提高系统的性能,针对 Storm 中默认调度器工作节点任务 分配不均匀、调度策略单一等问题,提出了基于节点资源监控的 RBS ( Resource Based Schedule ) 任务 调 度 算 法 和 支 持 单 节 点 的 SNS(Single Node Schedule)任务调度算法。并在 RBS 算法和 SNS 算法 的基础上,设计并实现了相应的 Topology 任务调度器。实验情况表明, 基于 RBS 算法的任务调度器可根据工作节点资源的使用情况,将工作 进程调度到资源利用率较低的节点上;而基于 SNS 算法的调度器可将 一些只执行简单运算并且没有太多中间状态的 Topology 的多个工作进 I 程调度到一个单一的物理节点上运行。 2) 为了提高系统的可用性,针对 Storm 中控制节点的单点失效问 题提出了解决方案。该方案通过 Zookeeper 协调服务实现主控制节点 选举和主从控制节点之间的状态同步。实验表明,由三个节点组成的 控制节点集群,当主控制节点宕机时,某个从控制节点能够顺利选为 主节点,保证 Topology 任务可不中断地运行。 3) 在上述工作的基础上,设计并实现了一个基于 Storm 的实时大 数据分析系统,为物流企业的 Saas 应用提供实时的大数据分析服务。 该系统包括流计算应用开发环境和流计算应用运行环境。 ? 流计算应用运行环境包括: ??基于 Storm 的流计算应用任务运行环境,包括:输入流组件、 基于 Ganglia 监控服务的 Topology 任务调度器、基于 Zookeeper 协调服务的控制节点集群协调器、持久化输出组件; ??流计算应用的数据输入/输出服务运行环境,包括:数据采 集与预处理器、Kafka 中间件、NoSQL 数据库; ? 应用开发环境包括集成开发工具、测试工具和部署工具: ??集成开发工具以 Eclipse 为基础,为应用开发人员提供数据 采集与预处理器 API 库、输入流组件 API 库、持久化输出组件 API 库等; ??测试工具在封装单机版 storm 基础上,为流计算应用提供模 拟运行环境。 关键词:Storm 实时计算 流式计算 任务调度 交通物流 II RESEARCH AND IMPLEMENTATION OF BIG DATA REAL-TIME PROCESSING SYSTEM BASED ON STORM ABSTRACT Real-time processing te

您可能关注的文档

文档评论(0)

131****9843 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档