HC大数据产品技术白皮书.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
HC大数据产品技术白皮书 HC大数据产品技术白皮书 PAGE / NUMPAGES HC大数据产品技术白皮书 H3C大数据产品技术白皮书 杭州华三通信技术有限公司 2020年 4 月 目 录 1 H3C大数据产品介绍 1 1.1 产品简介 1 1.2 产品架构 1 数据处理 2 数据分层 3 1.3 产品技术特点 4 先进的混合计算架构 4 高性价比的分布式集群 4 云化 ETL 5 数据分层和分级存储 5 数据分析挖掘 6 数据服务接口 6 可视化运维管理 7 1.4 产品功能简介 7 管理平面功能: 12 业务平面功能: 14 2 DataEngine HDP 核心技术 15 3 DataEngine MPP Cluster 核心技术 16 3.1 MPP + Shared Nothing 架构 16 3.2 核心组件 16 3.3 高可用 17 3.4 高性能扩展能力 18 3.5 高性能数据加载 18 3.6 OLAP函数 19 3.7 行列混合存储 19 H3C大数据产品介绍 1.1 产品简介 H3C大数据平台采用开源社区 Apache Hadoop2.0 和 MPP分 布式数据库混合计算框架为用户提供一套完整的大数据平台解决方案,具备高性能、高可用、高扩展特性,可以为超大规 模数据管理提供高性价比的通用计算存储能力。 H3C大数据平台提供数据采集转换、计算存储、分析挖掘、共享交换以及可 视化等全系列功能,并广泛地用于支撑各类数据仓库系统、 BI 系统和决策支持系统帮助用户构建海量数据处理系统, 发现数据的内在价值。 1.2 产品架构 H3C大数据平台包含 4 个部分: 第一部分是运维管理,包括:安装部署、配置管理、主机管理、用户管理、服务管理、监控告警和安全管理等。 第二部分是数据 ETL,即获取、转换、加载,包括:关系 数据库连接 Sqoop、日志采集 Flume、 ETL 工具 Kettle 。 第三部分是数据计算。 MPP采用分析型分布式数据库,存储高价值密度的结构化数据; Hadoop存储非结构化 / 半结构化数据和低价值密度结构化数据。计算结果都存到数据仓库,数 据仓库中的数据可直接用于分析和展示。 数据仓库是面向主题的、集成的、稳定的且随时间不断变化的数据集合,用以支持经营管理中的决策制定过程。 第四部分数据服务,包括:机器学习、数据挖掘、数据检 索、数据可视化、即席分析、 SQL和 API,为应用层提供服务和中间件调用。 数据处理 对于大数据管理平台,应该建立一套标准化、规范化的数据处 理流程,例如:如何采集内部和外部数据、结构化和非结构化 数据;如何清洗采集来的脏数据和无效数据;如何对不同来源 的数据进行打通;如何对非结构化的数据进行结构化加工;如 何在结构化数据的基础上进行商业建模和数据挖掘等等。 大数 据管理层在一条数据总线上构建了一条完整的大数据处理流 水线。这条流水线从数据的采集、清洗到加工处理,把原始杂 乱无章的数据加工成结构化的数据组件, 供上层的大数据应用 来拼装调用,让企业拥有创造数据资产的能力。 数据分层 ODS层:数据来源于各生产系统,通过 ETL 工具对接口文 件数据进行编码替换和数据清洗转换,不做关联操作。未 来也可用于准实时数据查询。 轻度汇总层: 主题域内部基于明细层数据, 进行多维度的、用户级的汇总 明细数据层:主题域内部进行拆分、关联。是对 ODS操作型数据按照主题域划分规则进行的拆分及合并。 信息子层:报表数据、多维数据、指标库等数据来源于汇总层。汇总层:主题域之间进行关联、汇总计算。汇总数据服务于信息子层,目的是为了节约信息子层数据计算成本和计算时间。 应用层:应用系统的私有数据,应用的业务数据。精细化营销做为大数据平台的一个上层应用,由大数据平台提供 数据支撑。 1.3 产品技术特点 先进的混合计算架构 采用 Hadoop和 MPP融合技术架构,对半结构化和非结构化数据支持并行计算和低成本存储,提供低时延、高并发的查询和 分析功能; 对结构化数据采用 MPP分布式列存储, 支持分布式计算、智能索引等功能,实现高性能结构化数据分析处理。 集成 MapReduce、 Spark 、 Storm、 Tez等多种计算框架,利用 YARN资源管理做统一管理,可在同一份数据集上运行多种计算。离线计算、内存计算和流式计算并存,能满足高吞吐、大数据量和低时延实时处理等多方面的数据计算要求。 高性价比的分布式集群 基于 x86服务器本地的计算与存储资源, 计算集群可以动态调整,从数台到数千台之间弹性扩展,按需构建应用,减少总体成本;同时,在设计时充分考虑了硬件设备

文档评论(0)

187****4751 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档