- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据处理平台架构(博客虫).pdf
博客虫网站原创博文系列整理-- 专注于前沿IT 技术
大数据处理平台架构
作者:博客虫
时间:2014/11/22
文档摘要:
该文档围绕数据平台的架构草图框架进行相关的分析说明,部分写的详细,部分鉴于能力写
的概略点
相关描述:
其他相关文档请参考博客虫网站/
有任何其他想法或者,可以到博客虫留言或者邮件blogchong@163.com
部分源码文档参考博客虫原创博文,代码获取:/blogchong
PDF 文档获取:百度网盘/s/1hqePCqw
PDF 文档及相关资料下载请到百度文库、新浪微盘搜索
欢迎加入 storm-分布式-IT 技术交流群(191321336,群中有详细的资料),一起讨论技
术,一起分享代码,一起分享设计;
博客虫网站原创博文系列整理-- 专注于前沿IT 技术
目录
数据平台架构草案错误!未定义书签。
1 文档说明1
2 数据平台概要1
3 数据平台架构分析2
3.1 数据平台架构草图2
3.2 数据源生产子系统2
3.3 数据加载子系统3
3.3.1 数据接入层3
3.3.2 实时处理层3
3.3.3 数据落地层4
3.3.4 系统升级方向4
3.4 数据存储子系统4
3.5 离线数据处理子系统5
3.6 平台元数据管理5
4 文档补充5
0
博客虫网站原创博文系列整理-- 专注于前沿IT 技术
1 文档说明
记得很久以前画过一个架构图,但那个架构图是以实时处理为核心的数据处理架构,并
且那个架构图也比较简单,事实上那个架构正是数据平台架构的一个部分。现在所提供的是
整个数据平台的数据处理架构草图。
2 数据平台概要
该文档以数据平台架构草案为核心,围绕数据的处理流程,设计的一套数据处理方案,
结合了部分实际处理架构,当然部分比较详细,部分鉴于水平问题写的比较概略,欢迎指正。
整体架构分为四个部分,数据源产生子系统、数据加载子系统、数据存储子系统、离线
数据处理子系统。
数据源产生子系统负责整个系统源数据的产生。数据源的生产可能有多钟途径,也可能
是不同格式,这就是需要这个子系统对离散的源数据进行初步的整合,数据格式的初步统一。
数据加载子系统负责数据后期处理的预处理操作。核心部分是实时处理部分,包含的其
他部分例如数据的接入、数据的实时处理、数据的落地接口。该部分是数据的预处理部分,
对于后续的业务处理,不同的数据可能有不同的需求,因此可以对数据进行提前处理,避免
后期业务系统的数据冗杂。并且很多情况下,事实处理的结果就是业务输出所需要的数据。
数据存储子系统顾名思义,主要用于数据的存储。一是源数据的备份,二是预处理结果
的备份,三是离线数据在使用完时备份转存在专门的存储系统中(通用分布式文件系统挂载
接口),四是作为检索引擎的数据以及索引存储的系统。因此该部分最核心的部分就是以分
布式文件系统为核心的通用存储集群,当然也包括传统的关系型数据库。
离线数据处理子系统负责离线数据的处理,包括了数据分析挖掘、机器学习以及数据检
索部分等等。该部分是最重要也是最复杂的部分,以hadoop 集群为依托,以hadoop 组件
为工具进行相应的数据处理,也是最有价值的部分。
1
博客虫网站原创博文系列整理-- 专注于前沿IT 技术
3 数据平台架构分析
3.1 数据平台架构草图
数据平台架构草图
文档评论(0)