阿里巴巴全域数据建设.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
PAGE \* MERGEFORMAT 14 阿里巴巴全域数据建设 阿里巴巴数据技术及产品部定位阿里数据中台:以全域大数据建设为中心,技术上覆盖整个大数据从采集、加工、服务、消费的全链路的各个环节,对内对外提供服务。丰富的大数据生态组件,构成了阿里的核心数据能力,通过大数据生态组件,可以迅速的提升数据应用的迭代能力,人人都有可能成为大数据专家。 在全域数据建设过程中,还构建了阿里巴巴OneData体系作为大数据标准化规范,从方法论到落地实践;从对指标定义、数据研发、数据服务的口径管理到数据规范定义、模型规范定义、研发流程的规范化;每个环节均有对应工具进行严格保障,并做到方便管理、问题追溯。 数据中台-阿里数据技术及产品部定位 2016年阿里巴巴集团提出中台概念,阿里巴巴数据技术及产品部承载了集团数据中台的工作,其核心就是建设全域大数据。 ◎ 从内容上看,我们管理和运维着阿里巴巴集团最核心的基础数据; ◎ 从技术上看,我们覆盖了从数据采集、计算加工到数据服务、数据应用等数据链路上的每一个环节,为阿里生态内外的业务、用户、中小企业提供全链路、全渠道的数据服务。 举个例子,被大家熟知的双11当天可见炫酷数据大屏就是由我们部门负责的。 【阿里数据中台全景图】 上图是阿里数据中台的全景图,从这个图中我们可以看见实际上阿里数据中台在架构的组成上,呈现了一个“四横三纵”的结构,底层的基础设施来自于阿里云平台。 ◎ 先来讲四横—— 整张架构图从下往上看,最下面这块内容主要从数据采集和接入为角度,按照业态接入数据(比如淘宝、天猫、盒马等),我们把这些数据抽取到计算平台;接着通过OneData体系,以“业务板块+分析维度”为架构去构建“公共数据中心”;再基于公共数据中心在上层根据业务需求去建设:消费者数据体系、企业数据体系、内容数据体系等;经过深度加工后,数据就可以发挥其价值被产品、业务所用;最后通过统一的数据服务中间件“OneService”提供统一数据服务。 在阿里内部,阿里数据平台上的数据产品已有几十种,每天有上万内部员工在使用数据产品;我们的官方统一数据产品平台“生意参谋”累计服务了超2000万商家…… ◎ 接下来是三纵—— 基于阿里巴巴如此大体量的数据体系建设背后,我们必须要通过大量工具去保证快速、高效、高质量数据接入,这部分我们通过智能数据研发平台来实现,将我们的理论及实践过程,通过一整套的工具体系及研发流程去保障落地,确保每一个团队,每一个BU,通过统一规则去建设数据体系;同时,当数据多了以后最直接问题就是成本,因此我们还建立了统一的数据质量管理平台。 全域数据到底是什么? 阿里巴巴目前生态建设包括了核心的电商业务,淘宝、天猫、聚划算等,同时还有文娱板块的优酷、土豆、UC浏览器等,当然还有本地化服务比如口碑、饿了么等。基于业态背后还有蚂蚁、菜鸟、阿里妈妈、阿里云等等。 这一系列的生态数据我们都会集中进行存储和管理,并构成了我们的全域数据所覆盖的范围。 一方面,上述每一种业态都是全域数据的来源;另外一方面基于这些优质的数据,进行解析和处理,再反哺给到业务。我们要实现的是:利用全域数据去驱动业务,让数据发挥更大价值。 以手淘为例,手机屏幕是非常小的,我们如何在有限的空间内展示给到用户看到他们真正希望看见的内容?“千人千面”这一应用的背后,实际上就是基于大数据的算法应用场景,来实现的。还有芝麻信用、菜鸟的智能物流、阿里妈妈的精准营销等等,它们都是通过大数据驱动之下,构成了业务与数据联通的闭环。 阿里全域数据建设的初衷 我们为什么要做全域数据? ◎ 首先,降低成本—— 大家都知道大数据建设的资金投入其实是非常巨大的。比如基础建设的投入、机房、机架、服务器、网络带宽,包括软件平台建设,开发运维团队的组建等等,都会耗费企业大量的资金和人力。以优土(优酷土豆的简称)为例,优土去年加入阿里巴巴集团之后,我们开始启动数据融合项目:在此之前,优土有自己的Hadoop集群,阿里巴巴的数据规模则大的多,将优土数据融合到阿里大平台上,可以让优土获得更多弹性资源,也可以在基础设施运维、人力运维、平台运维上复用集团的技术体系;基于OneData大数据建设体系、统一的数据采集规范等,减少人力及运维成本。当项目完结后,我们发现目前优土在数据建设上的成本不到原来50%。 ◎ 其次,技术赋能—— 客观来说,在阿里生态内公司的数据能力参差不齐,因此为了赋能其他生态公司,我们通过短时间的数据体系迁移,让他们拥有和阿里集团同样的大数据能力。上述的优土融合项目就是通过半年时间,实现了技术赋能。 ◎ 第三,数据连接—— 我们知道数据孤岛的现象不光存在于传统行业,互联网行业也是一样。所以只有把数据连接起来,它才能发挥更大的价值,消除数据孤岛,让数据连接起来,也是我们进行

文档评论(0)

智慧IT + 关注
实名认证
内容提供者

微软售前技术专家持证人

生命在于奋斗,技术在于分享!

领域认证该用户于2023年09月10日上传了微软售前技术专家

1亿VIP精品文档

相关文档