- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
某广电单位大数据平台架构设计.doc
某广电单位大数据平台架构设计
摘 要:某局的大数据平台架构设计中,共有12个组件。计算框架采用Lambda架构,同时管理实时计算框架和离线计算框架,数据经过数据采集服务初步验证过滤,记录到消息队列Kafka中,之后,同时进入到Hadoop和storm中分别用于离线和实时计算。
关键词:大数据平台 离线计算 Hadoop 实时计算 Storm Kafka Mongodb
中图分类号:TP27 文献标识码:A 文章编号:1672-3791(2016)03(a)-0006-03
某局期望实现设备运行数据、业务管理数据和各业务系统数据的规范传送、标准化整理和存储,建立全局统一的数据关系明确的主题数据库或数据仓库,为全局各应用系统提供规范的数据交换服务以及对基础数据的管理。主要任务是:建立全局数据中心,基于大数据云平台和两级数据交换中心,实现各级业务系统基础数据的统一规范化管理;初步实现全局设备及其状态以及运行质量、趋势、故障等的可视化分析建模及展示。该文主要阐述平台的架构设计。
1 大数据平台架构
BDM(Big Data Management,大数据管理平台)整体架构由下向上,从底层硬件逐步构建。
(1)硬件设施层:提供最基础的硬件系统。
(2)虚拟化层:在硬件设施层之上,将硬件资源虚拟化,将服务器集群资源统筹管理。
(3)数据存储层:完成海量数据的分布式存储。提供数据备份和容灾,采用Hadoop框架的HDFS分布式存储引擎、分布式消息队列Kafka、分布式文档型内存数据库和关系型数据库。
(4)数据服务层:包括,数据装载读写、数据分析处理编程框架和数据查询等。数据处理工具完成服务层与数据存储层间的数据交互,提供友好的数据操作界面。
(5)数据接口层:对外提供操作的相关接口。
2 BDM组件关系
图1为该局BDM的整体架构,采用SOA(Service-Oriented Architecture)架构,其将具体功能以服务的形式部署在服务器集群上,每个服务以分布式方式部署,提供单独的高可用的服务,平台中的各系统都可以任意访问服务。BDM平台支持结构化数据(数据库表、结构化文本)、半结构化数据和非结构化数据。
数据经由Kafka写入到Hadoop HDFS,永久存储,进行离线计算;经由Kafka到达Storm流计算平台,进行实时计算和处理。
2.1 Nginx
Nginx是一个高性能的HTTP和反向代理服务器,是BDM中统一的HTTP请求的转发入口,需两台服务器集群互为备份和负载均衡。它接收用户的HTTP接口调用浏览器访问,将请求转发到OMCenter网页、BDMS网页、数据查询、REST接口和数据探头等。
2.2 分布式集群协作管理Zookeeper
Zookeeper是集群协作管理中心,提供集群协调功能,保存集群运行状态和配置信息并同步到集群各个系统,组件包括:数据采集服务、Storm、 Hadoop和Kafka等。Zookeeper作为集群的配置中心,在多台zookeeper服务器之间,保证数据强一致性,实现了Paxos算法,完成数据在节点之间存储一致的状态,在部署zookeeper集群的时候,一般使用3台集群或5台集群。 Zookeeper在部署完成后即拥有高容错功能,一个zookeeper节点故障,并不影响整体集群的服务功能,这个节点重启就可以恢复数据,并恢复正常状态。集群协作管理的方式有如下几种。
(1)在zookeeper中保存集群中每个服务器地址及其提供的对应服务。
(2)客户端从zookeeper中获取集群中提供服务的具体实例地址和具体服务通信。
(3)集群状态发生变化时,更新zookeeper内容,即时通知客户端。
(4) zookeeper保存并分析服务的运行状态,发送监控信息和报警信息。
2.3 Kafka
Kafka集群有三种角色(如图2):Producer是数据的发布者,向消息队列推送数据;Consumer是数据的订阅者,从消息队列订阅数据并消费;Broker是消息队列实体和集群中的Server。Kafka指定各个分区到对应的读取进程,因此保证每个进程读取数据的顺序性和负载均衡。
Kafka消息读取的方式如图2。它可以同时处理多个逻辑队列,每个队列用一个Topic名称进行唯一标识,即一个Topic确定一个逻辑队列。每个逻辑队列分成多个分区(Partition),图中为Kafka Cluster的P0~P2,每个分区分散存储于服务器上,数据写入kafka时,轮询写入每个分区。数据的消费者,分多组(Consumer Group)同时读取数据,每组都可读取到队列
您可能关注的文档
最近下载
- 精益化智慧手术室建设指南.pdf VIP
- 房产经纪人初级培训培训之房屋租赁培训资料.ppt
- 云浮硫铁矿企业集团公司校园招聘模拟试题附带答案详解.docx VIP
- 2025年中国微压富氧舱市场调查研究报告.docx
- 学习教育专题党课2篇:持续推进作风建设.docx VIP
- AIAG-VDA-FMEA作业指导书(第五版FMEA管理规定).docx VIP
- GB4968-2008 火灾分类.doc VIP
- 2022年公务员考试必备-公基常识真题含答案.doc VIP
- 环境管理 生命周期评价 原则与框架.pdf VIP
- (高清版)DB36∕T 1273-2020 铜尾矿掺合料在混凝土和砂浆中应用技术规程.pdf VIP
文档评论(0)