- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
1 文档说明
该文档描述的是以storm为主体的实时处理架构,该架构包括了数据收集部分,实时处理部分,及数据落地部分。
关于不同部分的技术选型与业务需求及个人对相关技术的熟悉度有关,会一一进行分析。
该架构是本人所掌握的一种架构,可能会与其他架构有相似的部分,个人会一一解释对其的理解。
这个文章写的很详细,相信对大家在实时处理整体理解上会有帮助的。
?
2 实时处理架构
2.1 整体架构图
架构说明:
整个数据处理流程包括四部分,一部分是数据接入层,该部分从前端业务系统获取数据;中间部分是最重要的storm实时处理部分,数据从接入层接入,经过实时处理后传入数据落地层;第三部分为数据落地层,该部分指定了数据的落地方式;第四部分元数据管理器。
2.2 数据接入层
该部分有多种数据收集方式,包括使用消息队列(MetaQ),直接通过网络Socket传输数据,前端业务系统专有数据采集API,对Log问价定时监控。
2.2.1 MetaQ
为什么选择消息队列?
这或许是大家比较疑惑的地方,会疑惑为什么不把数据直接导入storm中。 使用消息队列作为数据中间处理组件的原因是,在大批量数据处理时,前端业务数据产生速度可能会很快,而实时处理或者其他处理速度跟不上,会影响整个系统处 理性能,引入消息队列之后,我们可以把数据临时存储在消息队列中,后端处理速度就不会影响前端业务数据的产生,比较专业的术语叫做解除耦合,增加系统扩展性,系统各组件异步运行。
为什么使用MetaQ?
在消息队列选择上,kafka是一个比较通用的,开源时间较长的消息发布订阅系统,而MetaQ是基于kafka开发的,使用我们比较熟悉的Java开发,并且在此基础上作了一定的改进,如数据可靠及事务处理等。另一方面,这是国人开源的东西,各方面的文档比较完整,并且有相关的实例接口。所以使用MetaQ作为消息中间件,开发成本比较低,又有较好的性能。
2.2.2 Socket
部分人使用网络Socket编程实现Storm的数据接入。这是一种比较直接的数据采集方式,并且确实有些Storm相关的项目使用这种数据接入方式。
这种数据接入方式比较简单,维护成本较低,但数据量相对于使用消息中间件来说较小。
难点:
使用Socket采集数据比较麻烦的是,由于Storm的Spout的地址是不定的,无法确定其地址,则前端业务系统就无法将数据准确的发送的某个具体IP地址上的端口中。解决方法如下:
(1) 我们可以使用zookeeper作为传输站,Spout执行后,将本地有效的IP地址及可用正在监控的端口等信息写入zookeeper中,前端业务系统从zookeeper目录中获取该信息。
(2) 使用元数据指导前端业务系统数据发送,Spout将本地IP及端口信息存入元数据管理器中,前端业务系统从元数据管理器中获取该参数信息。
2.2.3 前端业务系统数据采集API
这种数据采集方式就不多说了,前端业务系统为Spout专门设计的数据采集API,Spout只需调用该API就能获取数据。
2.2.4 Log文件监控
有时候我们的数据源是已经保存下来的log文件,那Spout就必须监控Log文件的变化,及时将变化部分的数据提取写入Storm中,这很难做到完全实时性。
2.3 Storm实时处理系统
2.3.1 说明
前面部分数据接入层其实已经包含部分storm相关的内容,例如一些数据采集接口就是属于Storm的Spout部分,我把该部分单独拿出来的意思是把实时处理核心部分作为一个大章节,即实时处理部分(除数据接入及数据落地的接口)。
2.3.2 使用Storm原因
为何选择Storm作为实时处理的核心呢?Storm作为开源比较早的一款实时处理系统,其功能比较完善,其failover机制相当给力,无论是woker还是supervisor,甚至是task,只要挂掉都能自动重启;其性能经过测试还是相当不错的且目前网络相关资料较多,这就意味着开发代价会小很多;其扩展性非常好,能够横向扩展。Storm目前的短处在与nimbus单点,如果nimbus挂掉,整个系统会挂掉,这是Storm需要改进的地方,不过nimbus的系统压力不大,一般情况下也不会出现宕机。
2.3.3 实时处理业务接口
该部分需要提供一个实时业务处理的接口,即将用户的业务层需求转换为实时处理的具体模式。例如模仿Hive提供一个类Sql的业务接口,我们将一类数据在元数据管理器中描述是一个表,不同字段是表中不同字段
select ---------------------------固定数据查询(异常或者脏数据处理),
max/min/avg-------------------最大最小值
count/sum----------------------求和或次数
您可能关注的文档
- SQL完全手册第四版.pdf
- SQL性能优化(课件).doc
- SQL语句大全_完全版_免费下载.doc
- sql语句妙用,各种sql语句的详细用法与讲解.doc
- SQL语句性能调整参考点.doc
- SQL语句学习入门进阶.pdf
- sql约束、默认和规则.ppt
- SQL注入攻击防御指南.pdf
- SRX3600_产品配置维护培训.ppt
- SRX高端防火墙简明配置手册-20120823.doc
- 第12课 大一统王朝的巩固 课件(20张ppt).pptx
- 第17课 君主立宪制的英国 课件.pptx
- 第6课 戊戌变法 课件(22张ppt).pptx
- 第三章 物态变化 第2节_熔化和凝固_课件 (共46张ppt) 人教版(2024) 八年级上册.pptx
- 第三章 物态变化 第5节_跨学科实践:探索厨房中的物态变化问题_课件 (共28张ppt) 人教版(2024) 八年级上册.pptx
- 2025年山东省中考英语一轮复习外研版九年级上册.教材核心考点精讲精练(61页,含答案).docx
- 2025年山东省中考英语一轮复习(鲁教版)教材核心讲练六年级上册(24页,含答案).docx
- 第12课近代战争与西方文化的扩张 课件(共48张ppt)1.pptx
- 第11课 西汉建立和“文景之治” 课件(共17张ppt)1.pptx
- 唱歌 跳绳课件(共15张ppt内嵌音频)人音版(简谱)(2024)音乐一年级上册第三单元 快乐的一天1.pptx
最近下载
- 萝卜回来了:小班语言课(课堂PPT).pptx
- 钢结构厂房施工方案技术标.pdf VIP
- 2024八年级英语下册 Unit 9 Have you ever been to a museum说课稿(新版)人教新目标版.docx
- 太峪隧道斜井交叉口挤压变形段涌水处理技术.pdf VIP
- 《儿童腺样体肥大中医诊疗指南》.pdf VIP
- 钢结构厂房冬季施工方案.docx VIP
- 麦积山隧道2#斜井涌水处理及反坡排水方案浅谈.pdf VIP
- 狼和鸭子儿童故事PPT课件.ppt VIP
- 国际版抖音TikTok短视频直播电商培训教程(一)Tiktok下载与注册.pptx
- 战争与和平——美术作品反映战争 课件-2023-2024学年高中美术湘美版(2019)美术鉴赏.pptx VIP
文档评论(0)