基于Storm的实时计算系统的研究与实现-计算机技术专业论文.docxVIP

基于Storm的实时计算系统的研究与实现-计算机技术专业论文.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Storm的实时计算系统的研究与实现-计算机技术专业论文

107TN82学校代码 分 类 107 TN82  10701 TP311.5 学 号 1203121831 密 级 公开 西安电子科技大学 硕士学位论文 基于 Storm 的实时计算系统的研究与实现 作者姓名:戴菲 领 域:计算机技术 学位类别:工程硕士 学校导师姓名、职称:高海昌副教授 企业导师姓名、职称:何战科副研究员 提交日期:2014 年 12 月 Research and Implementation of Real-time Computing System based on Storm A thesis submitted to XIDIAN UNIVERSITY in partial fulfillment of the requirements for the degree of Master in Computer Technology By Dai Fei Supervisor: Gao Haichang He Zhanke December 2014 西安电子科技大学 学位论文独创性(或创新性)声明 秉承学校严谨的学风和优良的科学道德,本人声明所呈交的论文是我个人在 导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标 注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成 果;也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的 材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说 明并表示了谢意。 学位论文若有不实之处,本人承担一切法律责任。 本人签名: 日 期: 西安电子科技大学 关于论文使用授权的说明 本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究 生在校攻读学位期间论文工作的知识产权单位属于西安电子科技大学。学校有权 保留送交论文的复印件,允许查阅、借阅论文;学校可以公布论文的全部或部分 内容,允许采用影印、缩印或其它复制手段保存论文。同时本人保证,获得学位 后结合学位论文研究成果撰写的文章,署名单位为西安电子科技大学。 保密的学位论文在 年解密后适用本授权书。 本人签名: 导师签名: 日 期: 日 期: 摘要 当今世界,是海量数据的时代。公司平日业务上经常会生成 TB 级别的数据, 如何很好的利用这些数据是一个非常关键的课题。MapReduce、HDFS 等其他相 关技术解决大数据处理的很多难关,但是它们主要是为了离线数据处理而产生的 技术。现在的用户越来越把关注点放在数据的实时性上。他们更希望所有的数据 在数据接入过程中就已经被处理加工成希望看到的结果。显然离线批量计算的方 式已经无法满足这个需求。如今,实时监控、实时推荐和实时报表等方面都需要 这门技术,用户希望在拿到数据很短的时间内就能推测出有用的信息,从而充分 展现数据的价值。所以针对这种大数据实时处理的技术显得尤为重要。 本论文基于开源的分布式流处理系统 Storm 框架,结合 Hive 的 HQL 处理模 式,设计和实现了一个针对大数据的实时计算系统,用于处理实时分析任务请求, 解决离线处理方式带来的更新延迟等问题,满足用户的需求。本文具体描述了数 据接入到 SQL 经过语法语义解析、逻辑执行计划、物理执行计划、生成 Topology 所需要的任务和 Topology 提交给 Storm 集群运行的一个具体过程。本系统还引入 Eclipse 插件开发技术,为系统定制了操作界面,方便用户使用。最后选取有代表 性的两种类型的业务包括实时指标统计、性能统计和时间段内的数据统计,从需 求描述、实现方案到集群测试,验证系统的可行性,并进行时延测试和容错性测 试。根据实验和实际的应用效果,基于 Storm 的实时计算系统在实时性和可用性 方面基本能满足用户需求,两种类型的业务均能正常计算,平均时延在 600ms 以 内,且出现节点宕机的情况下,也能继续工作,平均时延影响不大。 本文的主要成果是:实现了实时的计算系统,提出了基于 Storm 开源框架的 一整套计算流程,用户在只需要会用 SQL 的情况下即可独立完成实时计算的任 务,方便了流程。本系统的创新点主要体现在两个方面:功能方面主要表现在本 系统可以为企业的开发人员提供一个实时的数据处理平台,一键式的完成整个业 务处理过程,提高效率。技术方面主要表现在利用开源的实时处理系统 Storm 来 替代了传统的 Hadoop 的离线方式,解决了数据更新缓慢的弊端,充分利用数据 价值,减少了由于数据分析延误造成的损失。 关 键 词:Storm, 大数据, 实时, SQL 论文类型:应用软件技术 I ABSTRACT Todays world is the era of

您可能关注的文档

文档评论(0)

131****9843 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档