网站大量收购闲置独家精品文档,联系QQ:2885784924

大数据平台架构介绍.pdfVIP

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

古之立大事者,不惟有超世之才,亦必有坚忍不拔之志。——苏轼

为什么选择这样的大数据平台架构?

作者:傅一平

当前BAT基本公开了其大数据平台架构,从网上也能查询到一些资料,关于大数

据平台的各类技术介绍也不少,但在那个机制、那个环境、那个人才、那个薪酬

体系下,对于传统企业,可借鉴的东西也是有限的。

技术最终为业务服务,没必要一定要追求先进性,各个企业应根据自己的实际情

况去选择自己的技术路径。

与传统的更多从技术的角度来看待大数据平台架构的方式不同,笔者这次,更多

的从业务的视角来谈谈关于大数据架构的理解,即更多的会问为什么要采用这个

架构,到底能给业务带来多大价值,实践的最终结果是什么。

它不一定具有通用性,但从一定程度讲,这个架构可能比BAT的架构更适应大多

数企业的情况,毕竟,大多数企业,数据没到那个份上,也不可能完全自研,商

业和开源的结合可能更好一点,权当抛砖引玉。

大数据平台架构的层次划分没啥标准,以前笔者曾经做过大数据应用规划,也

是非常纠结,因为应用的分类也是横纵交错,后来还是觉得体现一个“能用”

原则,清晰且容易理解,能指导建设,这里将大数据平台划分为“五横一纵”。

古之立大事者,不惟有超世之才,亦必有坚忍不拔之志。——苏轼

具体见下图示例,这张图是比较经典的,也是妥协的结果,跟当前网上很多的大

数据架构图都可以作一定的映射。

何谓五横,基本还是根据数据的流向自底向上划分五层,跟传统的数据仓库其实

很类似,数据类的系统,概念上还是相通的,分别为数据采集层、数据处理层、

数据分析层、数据访问层及应用层。

同时,大数据平台架构跟传统数据仓库有一个不同,就是同一层次,为了满足不

同的场景,会采用更多的技术组件,体现百花齐放的特点,这是一个难点。

数据采集层:既包括传统的ETL离线采集、也有实时采集、互联网爬虫解析等等。

数据处理层:根据数据处理场景要求不同,可以划分为HADOOP、MPP、流处理等

等。

数据分析层:主要包含了分析引擎,比如数据挖掘、机器学习、深度学习等。

数据访问层:主要是实现读写分离,将偏向应用的查询等能力与计算能力剥离,

包括实时查询、多维查询、常规查询等应用场景。

数据应用层:根据企业的特点不同划分不同类别的应用,比如针对运营商,对内

有精准营销、客服投诉、基站分析等,对外有基于位置的客流、基于标签的广告

应用等等。

数据管理层:这是一纵,主要是实现数据的管理和运维,它横跨多层,实现统一

管理。

1、数据采集层,这是基础。

古之立大事者,不惟有超世之才,亦必有坚忍不拔之志。——苏轼

离线批量采集,采用的是HADOOP,这个已经成为当前流线采集的主流引擎了,

基于这个平台,需要部署数据采集应用或工具。

诸如BAT都是自己研发的产品,一般企业,可以采用商用版本,现在这类选择很

多,比如华为BDI等等,很多企业技术实力有,但起步的时候往往对于应用场景

的理解比较弱,细节做工很差,导致做出来的产品难以达到要求,比如缺乏统计

功能等,跟BAT差距很大,传统企业去采购这类产品,要谨慎小心。

一个建议是,当采购产品的时候,除了技术先进性和指标外,更多的应该问问是

版本啥时候上线的,是否在哪里成功部署,是否有足够多的客户,如果能做个测

试就更好,否则,你就是小白鼠哦,这个坑踩了不少。

能做和做成产品是两个境界的事情,小的互联网企业当然也能做出对于自己好用

的采集工具,但它很难抽象并打造出一个真正的产品,BAT自研其实形成了巨大

的优势。

实时采集现在也成了大数据平台的标配,估计主流就是FLUME+KAFKA,然后结合

文档评论(0)

137****5455 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档