浅析Storm流式计算课件.pptVIP

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

LOGO公开课主题:浅析Storm流式计算主讲人:肖康

主要内容Storm简介Storm原理和架构Storm实战小象科技让你的数据产生价值2

Storm简介-案例分析?统计某个服务被访问的客户端地域分布情况–日志中记录了客户端IP–把IP转换成地域–按照地域进行统计小象科技让你的数据产生价值

Storm简介-案例分析?Hadoop貌似就可以轻松搞定–日志存HDFS–运行MapReduce程序?map做ip提取,转换成地域?reduce以地域为key聚合,计数统计–从HDFS取出结果小象科技让你的数据产生价值

Storm简介-案例分析?如果有时效性要求呢?–小时级:还行,每小时跑一个MapReduceJob–10分钟:还凑合能跑–5分钟:够呛了,等槽位可能要几分钟呢–1分钟:算了吧,启动Job就要几十秒呢–秒级:…?分析MapReduce不满足时效性要求的原因–一批数据启动一次,处理完进程停止?启动本身是需要时间的:输入切分、调度、起进程?共享集群Job比较杂,可能需要等待资源–所有数据都需要读写磁盘小象科技让你的数据产生价值

Storm简介-案例分析?解决方案–进程常驻运行–数据在内存中?Storm正好适合种需求从MQ取日志解析ip转成地域内存累加计数定期输出redislogMQredis小象科技让你的数据产生价值

Storm介-是什么?Storm是一个分布式实时流式计算平台–分布式?水平扩展:通过加机器、提高并发数就提高处理能力?自动容错:自动处理进程、机器、网络异常–实时:数据不写磁盘,延迟低(毫秒级)–流式:不断有数据流入、处理、流出–开源:twitter开源,社区很活跃小象科技让你的数据产生价值

Storm简介–和其他大数据计算平台对比?Stormvs.MapReduce–常驻运行–流式处理:数据来一点处理一点–实时处理:数据在内存中不写磁盘–DAG模型:可以组合多个阶段?Stormvs.queue+worker系统–维护简单:无需维护queue,queue和worker对应关系–扩展简单:加机器,提高并发,重新提交–自动容错:进程、机器、网络异常,消息可重发小象科技让你的数据产生价值

Storm简介-典型应用场景请求应答(同步)–DRPC实时图片处理实时网页分析图片X图片X图片XYDRPCServerClientSpoutBoltReturn图片Y流式处理(异步)图片Y–逐条处理数据之间无关系:如实时日志格式标准化入库–分析统计数据之间有关系(聚合等):如日志pv/uv统计、访问热点统计N行日志N行日志N行日志ippv/uvClientMQSpoutBolt1Bolt2Storagereceived小象科技让你的数据产生价值9

主要内容Storm简介Storm原理和架构Storm实战小象科技让你的数据产生价值1

Storm原理和架构-计算模型DAG计算模型–Tuple:数据处理单元,一个Tuple由多个字段组成–Stream:持续的Tuple流–Spout:从外部获取数据,输出原始Tuple–Bolt:接收Spout/Bolt输出的Tuple,处理,输出新Tuple小象科技让你的数据产生价值1

Storm原理和架构-计算模型?DAG计算模型(续)–Grouping?Tuple从上游到某个下游多个并发task的分组方式–shuffleGrouping:随机发给某个下游task–fieldsGrouping:按照某几个字段做hash取模,发给对应task–allGrouping:发给下游全部task–Topology?一个应用的spout,bolt,grouping组合小象科技让你的数据产生价值

Storm原理和架构-架构supervisorzookeeperworkerworkersupervisorsupervisorsupervisornimbuszookeeperzookeepernimbus:集群的master,负责管理supervisor、调度topologysupervisor:负责运行topology的workerworker:负责实际的计算和网络通信zookeeper:负责存储以上模块的状态,做到高可用小象科技让你的数据产生价值1

Storm原理和架构-数据流程executor执行spout.nextTuple()或bolt.execute(),调用emit生成新的tuple,放到executor的transferqueueexecutortransferthread把自己transferqueue里面的tuple放到workertran

文档评论(0)

113541236359 + 关注
官方认证
文档贡献者

该用户很懒,什么也没介绍

认证主体成都谚晨心动科技文化有限公司
IP属地四川
统一社会信用代码/组织机构代码
91510104MAD14BYH9L

1亿VIP精品文档

相关文档