H3C大数据产品技术白皮书.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
H3C大数据产品技术白皮书 H3C大数据产品技术白皮书 PAGE PAGE15 H3C大数据产品技术白皮书 PAGE . H3C大数据产品技术白皮书 杭州华三通信技术有限企业 2019年12月 ;.. . 目 录 1 H3C大数据产品介绍 1 产品简介 1 产品架构 1 数据办理 2 数据分层 3 产品技术特点 4 先进的混杂计算架构 4 高性价比的分布式集群 4 云化ETL 4 数据分层和分级储藏 5 数据解析挖掘 5 数据服务接口 5 可视化运维管理 5 产品功能简介 6 管理平面功能: 7 业务平面功能: 8 2 DataEngineHDP中心技术 9 3 DataEngineMPPCluster中心技术 9 MPP+SharedNothing架构 9 中心组件 10 高可用 11 高性能扩展能力 11 高性能数据加载 12 OLAP函数 13 行列混杂储藏 13 ;.. . H3C大数据产品介绍 产品简介 H3C大数据平台采用开源社区 Apache和MPP分布式数据库混 合计算框架为用户供应一套完满的大数据平台解决方案,具备高性能、高可用、高扩展特点,可以为超大规模数据管理供应高性价比的通用计算储藏能力。H3C大数据平台供应数据采集变换、计算储藏、解析挖掘、共享交换以 及可视化等全系列功能,并广泛地用于支撑各种数据库房系统、BI系统和决策支持系统帮助用户成立海量数据办理系统,发现数据的内在价值。 产品架构 H3C大数据平台包括 4个部分: 第一部分是运维管理,包括:安装部署、配置管理、主机管理、用户管 ;.. . 理、服务管理、监指控警和安全管理等。 第二部分是数据ETL,即获取、变换、加载,包括:关系数据库连接Sqoop、日志采集Flume、ETL工具Kettle。 第三部分是数据计算。MPP采用解析型分布式数据库,储藏高价值密度的结构化数据;Hadoop储藏非结构化/半结构化数据和廉价值密度结构化数据。计算结果都存到数据库房,数据库房中的数据可直接用于解析和显现。 数据库房是面向主题的、集成的、牢固的且随时间不断变化的数据会集,用以支持经营管理中的决策拟定过程。 第四部分数据服务,包括:机器学习、数据挖掘、数据检索、数据可视化、即席解析、SQL和API,为应用层供应服务和中间件调用。 数据办理 对于大数据管理平台, 应该成立一套标准化、规范化的数据办理流程,比方: 如何采集内部和外面数据、结构化和非结构化数据;如何冲刷采集来的脏数 据和无效数据;如何对不同样本源的数据进行打通;如何对非结构化的数据进行结构化加工;如何在结构化数据的基础进步行商业建模和数据挖掘等等。大数据管理层在一条数据总线上成立了一条完满的大数据办理流水线。这条流水线从数据的采集、冲刷到加工办理,把原始纷乱无章的数据加工成结构化的数据组件,供上层的大数据应用来拼装调用,让企业拥有创办数据财富的能力。 ;.. . 数据分层 ODS层:数据本源于各生产系统,经过 ETL工具对接口文件数据进行编 码代替和数据冲刷变换,不做关系操作。未来也可用于准实时数据盘问。 轻度汇总层:主题域内部基于明细层数据,进行多维度的、用户级的汇总 明细数据层:主题域内部进行拆分、关系。是对 ODS操作型数据依照主 题域划分规则进行的拆分及合并。 信息子层:报表数据、多维数据、指标库等数据本源于汇总层。汇总层:主题域之间进行关系、汇总计算。汇总数据服务于信息子层,目的是为了节约信息子层数据计算成本和计算时间。 ;.. . 应用层:应用系统的私有数据,应用的业务数据。精巧化营销做为大数据平台的一个上层应用,由大数据平台供应数据支撑。 产品技术特点 先进的混杂计算架构 采用Hadoop和MPP交融技术架构,对半结构化和非结构化数据支持并行计算和低成本储藏,供应低时延、高并发的盘问和解析功能;对结构化数据采用MPP分布式列储藏,支持分布式计算、智能索引等功能,实现高性能 结构化数据解析办理。集成MapReduce、Spark、Storm、Tez等多种计算框架,利用YARN资源管理做一致管理,可在同一份数据集上运行多种计算。 离线计算、内存计算和流式计算并存,能满足高吞吐、大数据量和低时延实时办理等多方面的数据计算要求。 高性价比的分布式集群 基于x86服务器当地的计算与储藏资源,计算集群可以动向调整,从数台到数千台之间弹性扩展,按需成立应用,减少整体成本;同时,在设计时充分考虑了硬件设备的不可以靠因素,在软件层面供应计算和储藏的高可靠保证,具备较强的容错性。 云化ETL 将不同样业务系统中分别、纷乱、标准不一致的各种源数据中的数据进行汇聚。支持从DBMS、互联网、物联网、企业生产系统等各种数据源中提取数据。各种数据经过抽取、冲刷和转变后,实现多对多地加载到包括但不限于大数据集群

文档评论(0)

134****6803 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档