分布式实时(流)计算框架.pptxVIP

下载本文档

42
0
约5.32千字
约 34页
2019-01-28 发布于广东
举报
版权申诉

分布式实时(流)计算框架.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

分布式实时（流）计算框架系统部（SE）--贺先智2014-01-15数据分析系统整体架构引入实时计算的背景 Hadoop的高吞吐，海量数据处理的能力使得人们可以方便地处理海量数据。但是，Hadoop的缺点也和它的优点同样鲜明-----延迟大，响应缓慢，运维复杂。hadoop主要的使用场景在于离线系统，现实生活中，一些场景是不允许那么长时间的延迟时间，都需要实时数据展示的，显而易见，hadoop是无法满足这种场景下的要求的。 Storm是实时计算（流）计算的典型代表，2011年，Twitter开源了Storm，为上述问题提供了良好的解决方案。 Storm关注的是数据多次处理一次写入，而hadoop关注的是数据一次写入，多次处理使用（查询）。Storm系统运行起来后是持续不断的，而hadoop往往只是在业务需要时调用数据。两者关注及应用的方向不一样。Storm架构及组件Topology：storm中运行的一个实时应用程序.Nimbus：负责资源分配和任务调度.Supervisor：负责接受nimbus分配的任务,启动和停止属于自己管理的worker进程.Worker：运行具体处理组件逻辑的进程.Task：worker中每一个spout/bolt的线程称为一个task.Spout：在一个topology中产生源数据流的组件.Bolt：在一个topology中接受数据然后执行处理的组件.Tuple：一次消息传递的基本单元.Stream grouping：消息的分组方法Storm和Hadoop角色对比Storm和Hadoop角色对比Storm集群和Hadoop集群表面上看很类似。但是Hadoop上运行的是MapReduce jobs，而在Storm上运行的是拓扑（topology），这两者之间是非常不一样的。一个关键的区别是：一个MapReduce job最终会结束，而一个topology永远会运行（除非你手动kill掉）。在Storm的集群里面有两种节点：控制节点（master node）和工作节点（worker node）。控制节点上面运行一个叫Nimbus后台程序，它的作用类似Hadoop里面的JobTracker。Nimbus负责在集群里面分发代码，分配计算任务给机器，并且监控状态。每一个工作节点上面运行一个叫做Supervisor的节点。Supervisor会监听分配给它那台机器的工作，根据需要启动/关闭工作进程。每一个工作进程执行一个topology的一个子集；一个运行的topology由运行在很多机器上的很多工作进程组成。Storm实时计算系统架构RDMS整个数据处理流程包括四部分:第一部分是数据接入层，该部分从前端业务系统获取数据；第二部分是最重要的storm实时处理部分，数据从接入层接入，经过实时处理后传入数据落地层；第三部分为数据落地层，该部分指定了数据的落地方式；第四部分元数据管理器。Storm实时计算业务接口将用户的业务层需求转换为实时处理的具体模式。例如模仿Hive提供一个类Sql的业务接口，我们将一类数据在元数据管理器中描述是一个表，不同字段是表中不同字段select ----固定数据查询（异常或者脏数据处理），max/min/avg----最大最小值count/sum----求和或次数统计（比如pv等）count(distinct)----去重计数（典型的如UV）order by----排序（取近访问的用户）group by----聚类函数order by----聚类后排序（如访问次数最多的topN商品）这只是简单类比，我们可以将实时处理的业务需求转化为Sql相关语句，上层执行类Sql语句，底层将其翻译成具体Topology组成及节点参数等。Storm实时计算具体业务需求(1) 条件过滤这是Storm最基本的处理方式，对符合条件的数据进行实时过滤，将符合条件的数据保存下来，这种实时查询的业务需求在实际应用中是很常见的。(2) 中间计算我们需要改变数据中某一个字段（例如是数值），我们需要利用一个中间值经过计算（值比较、求和、求平均等等）后改变该值，然后将数据重新输出。(3) 求TopN相信大家对TopN类的业务需求也是比较熟悉的，在规定时间窗口内，统计数据出现的TopN，该类处理在购物及电商业务需求中，比较常见。(4) 推荐系统正如我架构图中画的那样，有时候在实时处理时会从mysql及hadoop中获取数据库中的信息，例如在电影推荐系统中，传入数据为用户当前点播电影信息，从数据库中获取的是该用户之前的一些点播电影信息统计，例如点播最多的电影类型、最近点播的电影类型，及其社交关系中点播信息，结合本次点击及从数据库中获取的信息，生成一条推荐数据，推荐给该用户。并且该次点击记录将会更新其数据库中的参考信息