某广电单位大数据平台架构设计.docVIP

下载本文档

5
0
约 7页
2016-09-15 发布于北京
举报
版权申诉

某广电单位大数据平台架构设计.doc

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

某广电单位大数据平台架构设计.doc

某广电单位大数据平台架构设计　　摘要：某局的大数据平台架构设计中，共有12个组件。计算框架采用Lambda架构，同时管理实时计算框架和离线计算框架，数据经过数据采集服务初步验证过滤，记录到消息队列Kafka中，之后，同时进入到Hadoop和storm中分别用于离线和实时计算。　　关键词：大数据平台离线计算 Hadoop 实时计算 Storm Kafka Mongodb 　　中图分类号：TP27 文献标识码：A 文章编号：1672-3791（2016）03（a）-0006-03 　　某局期望实现设备运行数据、业务管理数据和各业务系统数据的规范传送、标准化整理和存储，建立全局统一的数据关系明确的主题数据库或数据仓库，为全局各应用系统提供规范的数据交换服务以及对基础数据的管理。主要任务是：建立全局数据中心，基于大数据云平台和两级数据交换中心，实现各级业务系统基础数据的统一规范化管理；初步实现全局设备及其状态以及运行质量、趋势、故障等的可视化分析建模及展示。该文主要阐述平台的架构设计。　　1 大数据平台架构　　BDM（Big Data Management，大数据管理平台）整体架构由下向上，从底层硬件逐步构建。　　（1）硬件设施层：提供最基础的硬件系统。　　（2）虚拟化层：在硬件设施层之上，将硬件资源虚拟化，将服务器集群资源统筹管理。　　（3）数据存储层：完成海量数据的分布式存储。提供数据备份和容灾，采用Hadoop框架的HDFS分布式存储引擎、分布式消息队列Kafka、分布式文档型内存数据库和关系型数据库。　　（4）数据服务层：包括，数据装载读写、数据分析处理编程框架和数据查询等。数据处理工具完成服务层与数据存储层间的数据交互，提供友好的数据操作界面。　　（5）数据接口层：对外提供操作的相关接口。　　2 BDM组件关系　　图1为该局BDM的整体架构，采用SOA（Service-Oriented Architecture）架构，其将具体功能以服务的形式部署在服务器集群上，每个服务以分布式方式部署，提供单独的高可用的服务，平台中的各系统都可以任意访问服务。BDM平台支持结构化数据（数据库表、结构化文本）、半结构化数据和非结构化数据。　　数据经由Kafka写入到Hadoop HDFS，永久存储，进行离线计算；经由Kafka到达Storm流计算平台，进行实时计算和处理。　　2.1 Nginx 　　Nginx是一个高性能的HTTP和反向代理服务器，是BDM中统一的HTTP请求的转发入口，需两台服务器集群互为备份和负载均衡。它接收用户的HTTP接口调用浏览器访问，将请求转发到OMCenter网页、BDMS网页、数据查询、REST接口和数据探头等。　　2.2 分布式集群协作管理Zookeeper 　　Zookeeper是集群协作管理中心，提供集群协调功能，保存集群运行状态和配置信息并同步到集群各个系统，组件包括：数据采集服务、Storm、 Hadoop和Kafka等。Zookeeper作为集群的配置中心，在多台zookeeper服务器之间，保证数据强一致性，实现了Paxos算法，完成数据在节点之间存储一致的状态，在部署zookeeper集群的时候，一般使用3台集群或5台集群。 Zookeeper在部署完成后即拥有高容错功能，一个zookeeper节点故障，并不影响整体集群的服务功能，这个节点重启就可以恢复数据，并恢复正常状态。集群协作管理的方式有如下几种。　　（1）在zookeeper中保存集群中每个服务器地址及其提供的对应服务。　　（2）客户端从zookeeper中获取集群中提供服务的具体实例地址和具体服务通信。　　（3）集群状态发生变化时，更新zookeeper内容，即时通知客户端。　　（4） zookeeper保存并分析服务的运行状态，发送监控信息和报警信息。　　2.3 Kafka 　　Kafka集群有三种角色（如图2）：Producer是数据的发布者，向消息队列推送数据；Consumer是数据的订阅者，从消息队列订阅数据并消费；Broker是消息队列实体和集群中的Server。Kafka指定各个分区到对应的读取进程，因此保证每个进程读取数据的顺序性和负载均衡。　　Kafka消息读取的方式如图2。它可以同时处理多个逻辑队列，每个队列用一个Topic名称进行唯一标识，即一个Topic确定一个逻辑队列。每个逻辑队列分成多个分区（Partition），图中为Kafka Cluster的P0～P2，每个分区分散存储于服务器上，数据写入kafka时，轮询写入每个分区。数据的消费者，分多组（Consumer Group）同时读取数据，每组都可读取到队列