- 1、本文档共16页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
PetaBase5.1实时大数据平台
产品技术白皮书
目录
目录2
产品简介3
什么是PetaBase实时大数据平台3
产品架构3
架构与分层4
软件栈组成5
产品特性6
定位混合计算场景6
实时/离线一体化处理6
弹性扩展6
高可用和高容错性7
高效的数据压缩与存储8
开放的数据格式10
高性能分布式计算框架10
丰富的数据访问接口11
灵活的数据采集方式11
便捷的可视化运维管理12
超强的查询性能13
高度集成的工程化产品14
运行环境15
软件环境15
硬件环境15
产品简介
什么是PetaBase实时大数据平台
PetaBase是基于开源Hadoop2.0平台基础上开发的、具有软件著作权的国产分布式实
时计算平台产品。PetaBase实时计算平台被设计为全新的大数据实时分析解决方案,可以为
金融、政务、零售、运输等行业客户的超大规模数据管理提供实时数据采集转换和计算存储
的功能,用于支撑准实时数据仓库系统、敏捷BI系统,为用户提供一套灵活易用的大数据
平台解决方案。
PetaBase是一个分布式、高性能、支持SQL的大数据计算分析引擎和数据存储系统,提
供对海量数据实时采集、交互式查询,计算结果秒级响应。
PetaBase构建于Hadoop/HDFS之上,采用分布式集群架构,具有动态线性扩展能力,
具有很高的容错性、稳定性和可用性,可轻松支持PB级以上数据处理。
PetaBase定位于处理和存储大规模流数据,适用于实时计算、批量处理、OLAP分析等
混合场景等。PetaBase是我公司大数据BI和大数据治理的组成部分。PetaBase具有源代码
级的安全可控制技术,工程化的开发和优化可保证PetaBase在生产环境的实施部署。
产品架构
架构与分层
PetaBase实时计算平台包含4层:
第一层是采集层,负责从外部数据源中摄取各类数据,包括:结构化和半结构化数据,
数据的接入方式既支持通过sqoop等ETL工具跑批也支持通过Flume实时采集。
第二层是数据存储层,负责整个平台的非结构化/半结构化数据和结构化数据存储。其
中,hdfs负责存储归档的海量历史数据,使用数仓模型进行组织,形成面向主题的、集成的、
稳定的且随时间不断变化的数据集合。为其上计算层提供数据支持。PetaBase使用了一种嵌
套的列式存储和高效压缩技术,显著降低了存储空间的要求。近实时数据统一存储在kudu
中,以兼顾随机查询和实时更新的混合需求。
第三层是计算层,融合了MapReduce、spark、impala等分布式计算框架,提供实时和
离线混合计算模型。
第四层是服务层,包括:数据存储、数据ETL、数据检索、实时计算、流数据采集等,
为应用层提供计算访问接口和服务。
PetaBase采用典型的Master/Slave集群部署架构,即1个管理节点、多个数据节点。
PetaBase可配置为高可用模式,即管理节点配置多个备份节点。通常我们将元数据有关的服
务部署在管理节点上,例如将PetaBase集群状态服务、元数据存储等同HadoopNameNode
部署在同一集群节点上,作为集群管理节点。
PetaBase自己提供的集群状态服务进程运行在管理节点上,负责收集分布在集群中各个
PetaBase节点的资源运行状态信息,用于查询时的资源调度。
每个PetaBase数据节点,主要有两个角色:一是计算执行单元,对客户端提交的SQL
查询进行语义解析,分解为多个可并行执行的计算任务,将计算任务派发给其它PetaBase
数据节点执行,并收集这些数据节点的执行结果进行合并;二是数据存储单元,负责分片数
据在hdfs上的存储,同时,还包括对本地HDFS里的数据进行I/O操作。
客户端通过JDBC/ODBC或Shell命令行等,向集群内任一PetaBase数据节点发送SQL
查询,这个PetaBase节点协调并分配任务给其它节点,同时也接收从其
文档评论(0)