大数据开发平台的搭建材料.pptx

下载文档 降价啦

35
0
约4.28千字
约 14页
2017-04-08 发布于湖北
举报
版权申诉
保障服务

大数据开发平台的搭建材料.pptx

1、本文档共14页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

大数据开发平台的搭建什么是大数据大数据（big data），是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。大数据技术的战略意义不在于掌握庞大的数据信息，而在于对这些含有意义的数据进行专业化处理。换而言之，如果把大数据比作一种产业，那么这种产业实现盈利的关键，在于提高对数据的“加工能力”，通过“加工”实现数据的“增值”。从技术上看，大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理，必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。大数据 3 大数据处理的需求和特点大数据平台目标架构准实时采集批量采集 Hadoop平台 MPP，基于X86平台主数据仓库分布式数据库基于x86平台数据采集（云化ETL，流数据处理、爬虫）数据层获取层能力层精细化营销智能运营物联网应用应用商店客服应用基础分析能力数据挖掘能力实时分析能力自助分析能力多维分析能力数据共享能力指标应用报表应用主题分析专题分析互联网 GN口半结构化、非结构化数据 BSS 经分 DM VAC MC话单业务平台结构化数据数据源分布式文件系统 HDFS 记录明细数据 HBase M/R Hive 记录汇总数据数据统一服务和开放SQL、FTP、WS、MDX、API、…… 分布式数据库（MPP）：存储加工、关联、汇总后的业务数据，并提供分布式计算，支撑数据深度分析和数据挖掘能力，向主数据仓库输出KPI和高度汇总数据。主数据仓库（与MPP合设）：存储指标数据、KPI数据和高度汇总数据。 Hadoop云平台：负责存储海量的流量话单数据，提供并行的计算和非结构化数据的处理能力，实现低成本的存储和低时延、高并发的查询能力。数据开放接口：向大数据应用方提供大数据平台的能力。数据采集（ETL）：负责源数据的采集、清洗、转换和加载包括： 1、把原始数据加载到Hadoop平台。 2、把加工后的数据加载分布式数据库和主数据仓库应用层 HDFS：分布式文件系统有较强的容错性可在x86平台上运行，减少总体成本可扩展，能构建大规模的应用 HBase：非结构化NoSQl分布式数据库基于分布式文件系统HDFS，保证数据安全列式存储，节省存储空间提供大数据量的高速读写操作 Hive：分布式关系型数据库数据可保存在HDFS，可提供海量的数据存储类SQL的查询语句，提供大数据的统计和分析操作，适合海量数据的批处理通过MapReduce实现大规划并行计算 MapReduce：大规划并行计算引擎可将任务分布并行运行在一个集群服务器中 Hadoop平台提供了海量数据的分布式存储与处理的框架。基于服务器本地的计算与存储资源， Hadoop集群可以扩展到上千台服务器。同时，Hadoop在设计时充分考虑了硬件设备的不可靠因素，在软件层面提供数据和计算的高可靠保证。大数据平台： Hadoop主要功能 HBase MapReduce Hive HDFS 快速的数据读取大数据存储统计复杂计算并行处理 Shared Nothing 代表数据库：GreenPlum、Vertica、Teradata 适合大数据量的OLAP应用新型MPP数据库主要构建在x86平台上，为无共享架构（Share Nothing），依靠软件架构上的创新和数据多副本机制，实现系统的高可用性和可扩展性。负责深度分析、复杂查询、KPI计算、数据挖掘以及多变的自助分析应用等，支持PB级的数据存储。大数据平台：分布式数据库新型MPP分布式数据库基于开放平台x86服务器大规模的并发处理能力无单点故障，可线性扩展多副本机制保证数据安全支撑PB级的数据量支持SQL，开放灵活数据分级存储原则数据融合与分级存储实施按数据血缘按逻辑层次按业务种类按设备网络划分按设备物理地址在线、近线、离线按访问频度内存数据库按响应及时性内存数据库数据生命周期中在线数据对高性能存储的需求，以及随着数据生命周期的变更，逐渐向一般性能存储的迁移，是分级存储管理的一条主线。同时兼顾考虑其他分级原则，共同作用影响数据迁移机制。基于生命周期基于访问压力基于业务用途基于物理属性分级原则高性能磁盘库磁带光盘库中低性能磁盘库将核心模型（即中度汇总的模型）通过改造融入到现有主数据仓库的核心模型中，减少数据冗余，提升数据质量。将主数据仓库中的历史数据和清单数据迁移到低成本分布式数据库，减轻主数据仓库的计算与存储压力并支撑深度数据分析。数据数据数据 1、核心模型融入主数据仓库主数据仓库