- 1、本文档共14页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据开发平台的搭建
什么是大数据
大数据(big data),是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。
大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。
从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。
大数据
3
大数据处理的需求和特点
大数据平台目标架构
准实时采集
批量采集
Hadoop平台
MPP,基于X86平台
主数据仓库
分布式数据库
基于x86平台
数据采集(云化ETL,流数据处理、爬虫)
数据层
获取层
能力层
精细化营销
智能运营
物联网应用
应用商店
客服应用
基础分析能力
数据挖掘能力
实时分析能力
自助分析能力
多维分析能力
数据共享能力
指标应用
报表应用
主题分析
专题分析
互联网
GN口
半结构化、非结构化数据
BSS
经分
DM
VAC
MC话单
业务平台
结构化数据
数据源
分布式文件系统 HDFS
记录明细数据
HBase
M/R
Hive
记录汇总数据
数据统一服务和开放SQL、FTP、WS、MDX、API、……
分布式数据库(MPP):
存储加工、关联、汇总后的业务数据,并提供分布式计算,支撑数据深度分析和数据挖掘能力,向主数据仓库输出KPI和高度汇总数据。
主数据仓库(与MPP合设):
存储指标数据、KPI数据和高度汇总数据。
Hadoop云平台:
负责存储海量的流量话单数据,提供并行的计算和非结构化数据的处理能力,实现低成本的存储和低时延、高并发的查询能力。
数据开放接口:
向大数据应用方提供大数据平台的能力。
数据采集(ETL):
负责源数据的采集、清洗、转换和加载包括:
1、把原始数据加载到Hadoop平台。
2、把加工后的数据加载分布式数据库和主数据仓库
应用层
HDFS:分布式文件系统
有较强的容错性
可在x86平台上运行,减少总体成本
可扩展,能构建大规模的应用
HBase:非结构化NoSQl分布式数据库
基于分布式文件系统HDFS,保证数据安全
列式存储,节省存储空间
提供大数据量的高速读写操作
Hive:分布式关系型数据库
数据可保存在HDFS,可提供海量的数据存储
类SQL的查询语句,提供大数据的统计和分析操作,适合海量数据的批处理
通过MapReduce实现大规划并行计算
MapReduce:大规划并行计算引擎
可将任务分布并行运行在一个集群服务器中
Hadoop平台提供了海量数据的分布式存储与处理的框架。基于服务器本地的计算与存储资源, Hadoop集群可以扩展到上千台服务器。同时,Hadoop在设计时充分考虑了硬件设备的不可靠因素,在软件层面提供数据和计算的高可靠保证。
大数据平台: Hadoop主要功能
HBase
MapReduce
Hive
HDFS
快速的数据读取
大数据存储统计
复杂计算并行处理
Shared Nothing
代表数据库:GreenPlum、Vertica、Teradata
适合大数据量的OLAP应用
新型MPP数据库主要构建在x86平台上,为无共享架构(Share Nothing),依靠软件架构上的创新和数据多副本机制,实现系统的高可用性和可扩展性。负责深度分析、复杂查询、KPI计算、数据挖掘以及多变的自助分析应用等,支持PB级的数据存储。
大数据平台: 分布式数据库
新型MPP分布式数据库
基于开放平台x86服务器
大规模的并发处理能力
无单点故障,可线性扩展
多副本机制保证数据安全
支撑PB级的数据量
支持SQL,开放灵活
数据分级存储原则
数据融合与分级存储实施
按数据血缘
按逻辑层次
按业务种类
按设备网络划分
按设备物理地址
在线、近线、离线
按访问频度
内存数据库
按响应
及时性
内存数据库
数据生命周期中在线数据对高性能存储的需求,以及随着数据生命周期的变更,逐渐向一般性能存储的迁移,是分级存储管理的一条主线。同时兼顾考虑其他分级原则,共同作用影响数据迁移机制。
基于生命周期
基于访问压力
基于业务用途
基于物理属性
分级原则
高性能
磁盘库
磁带
光盘库
中低性能
磁盘库
将核心模型(即中度汇总的模型)通过改造融入到现有主数据仓库的核心模型中,减少数据冗余,提升数据质量。
将主数据仓库中的历史数据和清单数据迁移到低成本分布式数据库,减轻主数据仓库的计算与存储压力并支撑深度数据分析。
数据
数据
数据
1、核心模型融入主数据仓库
主数据仓库
文档评论(0)