- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Storm架构与流处理 唐刚 Storm架构(1) 与Hadoop MapReduce相似 MapReduce是由JobTracker和TaskTracker组成 JobTracker是主节点,TaskTracker是从节点 MapReduce执行的是Job Job ———— JobTracker ———— TaskTracker,运行具体处理组件逻辑的进程是Child Job运行时,分为map阶段和reduce阶段,每个阶段中传递的数据单位是kv对 Storm是由Nimbus和Supervisor组成 Nimbus是主节点, Supervisor是从节点 Storm执行的是Topology Topology ———— Nimbus ———— Supervisor,运行具体处理组件逻辑的进程是Worker Topology运行时,分为Spout阶段和Bolt阶段,每个阶段中传递的数据单位是Tuple Storm架构(2) Storm组件 Topology:Storm中运行的一个实时应用程序 Nimbus:负责资源分配和任务调度 Supervisor:负责接受Nimbus分配的任务,启动和停止属于自己管理的worker进程 Worker:运行具体处理组件逻辑的进程 Spout:在一个Topology中产生源数据流的组件 Bolt:在一个Topology中接收数据,然后执行处理的组件 Tuple:一次数据传递的基本单元 Storm流处理过程 Storm是对流Stream的抽象,Storm将流中元素抽象为Tuple 流是一个不间断的无界的连续Tuple Storm认为每个Stream都有一个Stream源,它将这个源头称为Spout Bolt可以消费任意数量的输入流 本章总结 Storm架构 Nimbus、Supervisor Topology Spout、Bolt Tuple Storm流处理过程 Storm是对流Stream的抽象,流是一个不间断的无界的连续Tuple Spout是流的源头 Bolt可处理任意数量的输入流 mapreduce的组成由JobTracker和TaskTracker。其中,JobTracker是主节点,TaskTracker是从节点。 mapreduce执行的是job。job表示用户提交的一段计算代码。job在运行时,先提交给JobTracker,然后由JobTracker分给TaskTracker执行。 在job运行时,分为map阶段和reduce阶段。每个阶段中传递的数据单位是kv对。 storm的组成由nimbus和supervisor。其中,nimbus是主节点,supervisor是从节点。 storm执行的是topology。topology表示用户提交的一段计算代码。toplogy在运行时,先提交给nimbus,然后由nimbus分配给supervisor执行。 在topology运行时,分为spout阶段和bolt阶段。每个阶段中传递的数据单位是tuple。 * Nimbus和Supervisor两种组件。这两种组件都是快速失败的,没有状态。任务状态和心跳信息都保存在Zookeeper上。 Spout:一般是从外部数据源(如Message Queue、RDBMS、NoSQL、Realtime Log)不间断地读取数据并发送给Topology消息(tuple元组)。 Bolt:Storm中的消息处理者,用于为Topology进行消息的处理,Bolt可以执行过滤, 聚合, 查询数据库等操作,而且可以一级一级的进行处理。 * Storm是对流Stream的抽象,流是一个不间断的无界的连续tuple,注意Storm在建模事件流时,把流中的事件抽象为tuple即元组。 Storm将流中元素抽象为Tuple,一个tuple就是一个值列表value list,list中的每个value都有一个name,并且该value可以是基本类型,字符类型,字节数组等,当然也可以是其他可序列化的类型。 Storm认为每个stream都有一个stream源,也就是原始元组的源头,所以它将这个源头称为Spout。 有了源头即spout也就是有了stream,那么该如何处理stream内的tuple呢。将流的状态转换称为Bolt,bolt可以消费任意数量的输入流,只要将流方向导向该bolt,同时它也可以发送新的流给其他bolt使用,这样一来,只要打开特定的spout(管口)再将spout中流出的tuple导向特定的bolt,又bolt对导入的流做处理后再导向其他bolt或者目的地。 以上处理过程统称为Topology即拓扑。拓扑是storm中最高层次的一
您可能关注的文档
最近下载
- 宝力泰P8系列伺服驱动器使用说明书.pdf VIP
- 水性工业漆创新技术及性能研究.pdf VIP
- 绍兴柯桥佳宇兴腾染整有限公司年产11000万米印染面料生产线技改项目环评报告.docx VIP
- 高中数学:《数列》章末检测(含答案).pdf VIP
- 福建省南平市第三中学2025-2026学年九年级上学期第三次月考历史试题(含答案).docx VIP
- 苏教版一年级上册科学期末测试卷精品【基础题】.docx VIP
- 一年级上册语文句子训练题课内阅读专项_人教(部编版)(2018)(含答案).pdf VIP
- 肺栓塞应急预案演练方案.docx VIP
- 肺栓塞应急演练指南和预案.docx VIP
- 企业内部控制与管理手册.pdf VIP
原创力文档


文档评论(0)