Storm总结知识点.docxVIP

下载本文档

4
0
约3.29千字
约 6页
2017-12-11 发布于河南
举报
版权申诉

Storm总结知识点.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Storm总结知识点

·Nimbus 集群管理调度topology·Supervisor 启停worker·Worker 一个JVM进程资源分配的单位启动executer·Executer 实际干活的线程·ZK 存储状态信息，调度信息，心跳1】.一个slot就是一个worker，一个worker里面就是一个JVM，一个worker里面有多个executer，一个executer上执行一个或者多个Task，一般来说默认就是一个task；-------------------------------------------------------------------------------------------------------2】.Spout可以调用nextTuple（）函数来去从外部取数据，可以从DPRC取数据，可以从MQ，比如从Kafka中取数据，然后给后面的Bolt处理；-------------------------------------------------------------------------------------------------------3】.Storm纯流式处理，处理数据单元是一个个Tuple,Storm计算模型—DAG计算模型，DAG是由Spout和Bolt组合起来的，它们都是节点，边就是stream数据流，数据流里面的数据单元就是Tuple，而grouping是做数据流里面的数据分发；spout和bolt都是在内存里面进行计算的，不会写入到磁盘中，所以运转效率非常高；-------------------------------------------------------------------------------------------------------4】.Storm中最重要的就是一个topology，topology就是对DAG模型的实现；Storm关键的组件，nimbus 、supervisor，worker，executor，另外storm还用到了外围的zk组件来存储协调数据；-------------------------------------------------------------------------------------------------------5】.可以把topology理解为一个Job，对于hadoop的job就会有map和reduce；对于Storm来说topology就会有spout和bolt;hadoop中的job是有生命周期的，最终会结束的，topology的生命周期是如果你不kill掉它，它会一直运行job；-------------------------------------------------------------------------------------------------------6】.每个Stream都有一个ID，如果没有指定写ID就用默认的流，叫做default，每个spout/bolt都有一个默认的Stream：default；spout/bolt可以有很多流;很多情况下我们写的storm程序就是一个default流；7】.spout是产生tuple的源头，一般从外部数据源如kafka取数据，生成tuple；spout的核心地方就是有一个nextTuple（）函数，每个线程不断调用这个回调函数，Spout主动去kafka取数据，然后再用emilt（）方法生成一个Tuple给后面的bolt进行处理；-------------------------------------------------------------------------------------------------------8】.实现bolt的逻辑是交给java来实现的，当然其它语言也可以；实现bolt中最核心的又是实现一个execute回调函数，里面的参数就是新来的tuple，bolt是数据驱动，当数据来了就去处理,然后后面再产生新的tuple；9】.Grouping其实就做一件事，它决定发给下游某个bolt中n个并发中的哪一个task，ShuffleGrouping随机乱发，fieldGrouping按照某个字段或某些字段做hash，allGrouping就是上游的数据发给下游，就是相当于发给下游的所有，相当于广播，CustomGrouping，自定义，相当于mapreduce自己去实现一个partition一样，你只需要相对说0,1,2哪个，它就会帮你去找真正集群里面是哪个；--------------------------------------------------------------