storm原理和实战.pptxVIP

下载本文档

7
0
约5.71千字
约 21页
2018-06-29 发布于上海
举报
版权申诉

storm原理和实战.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Storm原理与实战--数据中心Storm应用场景有哪些问题？日志解析（推荐的日志解析场景详解）网站指标的实时解析（PV、UV、等）增量处理流式计算和其他服务的区别原理Storm是一个分布式的、可靠的、容错的数据流处理系统Storm与传统关系型数据库? 传统关系型数据库是先存后计算，而storm则是先算后存，甚至不存? 传统关系型数据库很难部署实时计算，只能部署定时任务统计分析窗口数据? 关系型数据库重视事务，并发控制，相对来说Storm比较简陋?原理URL：/lib/view/open1430095563146.htmlhttp/lib/view/open1430095563146.html:///lib/view//lib/view/open1430095563146.htmltopologySpout-水龙头需要implements接口BaseRichSpout?或者IRichSpoutpublic void open(); // spout初始化public void close(); // spout结束前的收尾工作public void nextTuple() // 发射消息public void ack(); // 消息处理成功后的处理方案public void fail(); //消息处理失败后的处理方案Bolt-螺栓需要implements接口BaseBasicBolt?或者IBoltpublic?void?execute();// 执行消息处理逻辑public void declareOutputFields (); // 消息发射的格式声明StreamsThe stream is the core abstraction in Storm. A stream is an unbounded sequence of tuples that is processed and created in parallel in a distributed fashion. Streams are defined with a schema that names the fields in the streams tuples. By default, tuples can contain integers, longs, shorts, bytes, strings, doubles, floats, booleans, and byte arrays. You can also define your own serializers so that custom types can be used natively within tuples.Stream groupingsShuffle groupingFields groupingPartial Key groupingAll groupingGlobal groupingNone groupingDirect groupingLocal or shuffle groupingReliability-Acker机制/releases/2.0.0-SNAPSHOT/Guaranteeing-message-processing.htmlTasks and Workers/releases/2.0.0-SNAPSHOT/Understanding-the-parallelism-of-a-Storm-topology.htmlStorm任务部署Storm集群中有两种节点，一种是控制节点(Nimbus节点)，另一种是工作节点(Supervisor节点)。所有Topology任务的提交必须在Storm客户端节点上进行(需要配置 storm.yaml文件)，由Nimbus节点分配给其他Supervisor节点进行处理。 Nimbus节点首先将提交的Topology进行分片，分成一个个的Task，并将Task和Supervisor相关的信息提交到 zookeeper集群上，Supervisor会去zookeeper集群上认领自己的Task，通知自己的Worker进程进行Task的处理。? 和同样是计算框架的MapReduce相比，MapReduce集群上运行的是Job，而Storm集群上运行的是Topology。但是Job在运行结束之后会自行结束，Topology却只能被手动的kill掉，否则会一直运行下去? Storm不处理计算结果的保存，这是应用代码需要负责的事情，如果数据不大，你可以简单地保存在内存里，也可以每次都更新数据库，也可以采用NoSQL存储。这部分事情完全交给用户。?zookeeper集群?storm使用zookeeper来协调整个集群，但是要注意的