大数据平台规划方案35475.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据平台规划方案35475

目 录 二、大数据平台整体规划 一、大数据应用发展趋势 大数据平台目标架构及定位 准实时采集 批量采集 Hadoop平台 MPP,基于X86平台 主数据仓库 分布式数据库 基于X86平台 数据采集(云化ETL,流数据处理、爬虫) 数据层 获取层 能力层 精细化营销 智能运营 物联网应用 应用商店 客服应用 基础分析能力 数据挖掘能力 实时分析能力 自助分析能力 多维分析能力 数据共享能力 指标应用 报表应用 主题分析 专题分析 互联网 GN口 半结构化、非结构化数据 BSS 经分 DM VAC MC话单 业务平台 结构化数据 数据源 分布式文件系统 HDFS 记录明细数据 HBase M/R Hive 记录汇总数据 数据统一服务和开放SQL、FTP、WS、MDX、API、…… 分布式数据库(MPP): 存储加工、关联、汇总后的业务数据,并提供分布式计算,支撑数据深度分析和数据挖掘能力,向主数据仓库输出KPI和高度汇总数据。 主数据仓库(与MPP合设): 存储指标数据、KPI数据和高度汇总数据。 Hadoop云平台: 负责存储海量的流量话单数据,提供并行的计算和非结构化数据的处理能力,实现低成本的存储和低时延、高并发的查询能力。 数据开放接口: 向大数据应用方提供大数据平台的能力。 数据采集(ETL): 负责源数据的采集、清洗、转换和加载包括: 1、把原始数据加载到Hadoop平台。 2、把加工后的数据加载分布式数据库和主数据仓库 应用层 HDFS:分布式文件系统 有较强的容错性 可在x86平台上运行,减少总体成本 可扩展,能构建大规模的应用 HBase:非结构化NoSQl分布式数据库 基于分布式文件系统HDFS,保证数据安全 列式存储,节省存储空间 提供大数据量的高速读写操作 Hive:分布式关系型数据库 数据可保存在HDFS,可提供海量的数据存储 类SQL的查询语句,提供大数据的统计和分析操作,适合海量数据的批处理 通过MapReduce实现大规划并行计算 MapReduce:大规划并行计算引擎 可将任务分布并行运行在一个集群服务器中 Hadoop平台提供了海量数据的分布式存储与处理的框架。基于服务器本地的计算与存储资源, Hadoop集群可以扩展到上千台服务器。同时,Hadoop在设计时充分考虑了硬件设备的不可靠因素,在软件层面提供数据和计算的高可靠保证。 大数据平台: Hadoop主要功能 HBase MapReduce Hive HDFS 快速的数据读取 大数据存储统计 复杂计算并行处理 Shared Nothing 代表数据库:GreenPlum、Vertica、Teradata 适合大数据量的OLAP应用 缺点 优点 线性扩展: X86平台高可用性较低 新型MPP数据库主要构建在x86平台上,为无共享架构(Share Nothing),依靠软件架构上的创新和数据多副本机制,实现系统的高可用性和可扩展性。负责深度分析、复杂查询、KPI计算、数据挖掘以及多变的自助分析应用等,支持PB级的数据存储。 大数据平台: 分布式数据库 新型MPP分布式数据库 基于开放平台x86服务器 大规模的并发处理能力 无单点故障,可线性扩展 多副本机制保证数据安全 支撑PB级的数据量 支持SQL,开放灵活 数据分级存储原则 数据融合与分级存储实施 按数据血缘 按逻辑层次 按业务种类 按设备网络划分 按设备物理地址 在线、近线、离线 按访问频度 内存数据库 按响应 及时性 内存数据库 数据生命周期中在线数据对高性能存储的需求,以及随着数据生命周期的变更,逐渐向一般性能存储的迁移,是分级存储管理的一条主线。同时兼顾考虑其他分级原则,共同作用影响数据迁移机制。 基于生命周期 基于访问压力 基于业务用途 基于物理属性 分级原则 高性能 磁盘库 磁带 光盘库 中低性能 磁盘库 将核心模型(即中度汇总的模型)通过改造融入到现有主数据仓库的核心模型中,减少数据冗余,提升数据质量。 将主数据仓库中的历史数据和清单数据迁移到低成本分布式数据库,减轻主数据仓库的计算与存储压力并支撑深度数据分析。 数据 数据 数据 1、核心模型融入主数据仓库 主数据仓库 2、历史数据迁移到分布式数据库 分布式数据库 1’、清单数据入MPP数据库 大数据平台: 数据分级存储 大数据平台规划方案汇报 目 录 二、大数据平台整体规划 一、大数据应用发展趋势 大数据 所谓“大数据”,指的是所涉及的数据量规模巨大到无法通过目前主流软件工具,在合理时间内达到截取、管理、处理、并整理成为帮助企业经营决策更积极目的的信息。。 大数据处理技术代表了新一代的技术架构,这种架构通过高速获取数据并对其进行分析和挖掘,从海量形式各异的数据源中更有效地抽取出富含价值的信息。 从大量数据中挖掘

文档评论(0)

baoyue + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档