【35页PPT】阿里集团大数据建设OneData体系.pptxVIP

【35页PPT】阿里集团大数据建设OneData体系.pptx

  1. 1、本文档共35页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

OneData

体系架构

天矢

01

总述

规范定义

02

目录

模型设计

03

实施流程

04

(一)总述

数据量大

数据不一致

业务多且变化快

数据质量要求高

运维任务多

背景

定位

什么是OneData

从规范定义、数据模型、数据研发到数据服务,可管理、可追溯,规避重复建设,提供标准的、共享的、服务化的数据;

大数据建设方法论

数据

规范定义

数据研发

数据

模型设计

数据服务

数据架构体系

(二)规范定义

定位

规范定义

统一指标、统一算法口径

有效GMV:下单金额?支付金额?最近1天?自然周?财年?

去除大额的逻辑是?计算逻辑是什么?

下单有效金额(crt_ord_vld_某著名企业)、最近1天下单有效金额(crt_ord_vld_某著名企业_1d_001)

指标的定义和管理体系

OneData体系架构

名词术语(一)

名词

解释

数据域

数据域是业务板块中有一定规模且相对独立的数据业务范围。

面向业务分析,将业务过程或者维度进行抽象的集合。

为保障整个体系的生命力,数据域是需要抽象提炼、并且长期维护和更新的,但不轻。在划分数据域时,既能涵盖当前所有的业务需求,又能在新业务进入时无影响的被包含进已有的数据域和扩展新的数据域。

业务过程

业务过程是指企业的业务活动事件,如下单、支付、退款都是业务过程。请注意业务过程是一个不可拆分的行为事件,通俗讲业务过程就是企业活动中的事件。

时间周期

用来明确数据统计的时间范围或者时间点,如最近30天、自然周、截至当日等。

修饰类型

是对修饰词的一种抽象划分。修饰类型从属于某个业务域,如日志域的访问终端类型涵盖无线端、PC端等修饰词。

修饰词

指除了统计维度以外指标的业务场景限定抽象。修饰词隶属于一个修饰类型,如日志域的访问终端类型下,有修饰词PC端、无线端等。

名词术语(二)

名词

解释

原子指标/度量

基于某一业务事件行为下的度量,是业务定义中不可再拆分的指标,具有明确业务含义的名词。原子指标=业务过程(动作)+度量,如支付(事件)金额(度量)。

派生指标

派生指标=一个原子指标+多个修饰词(可选)+时间周期。可以理解为对原子指标业务统计范围的圈定。如原子指标:支付金额,最近1天海外买家支付金额则为派生指标(最近1天为时间周期,海外为修饰词,买家作为维度而不作为修饰词)。

维度

维度是度量的环境,用来反映业务的一类属性,这类属性的集合构成一个维度,也可以称为实体对象。维度属于一个数据域,如地理维度(其中包括国家、某省市某省市等级别的内容)、时间维度(其中包括年、季、月、周、日等级别的内容)。

维度属性

维度属性隶属于一个维度,如地理维度里面的国家名称、国家某省市份名称等都属于维度属性。

核心架构

数据域

业务过程

维度

修饰类型

修饰词

原子指标

派生指标

属性

订单

支付方式

花呗

支付金额

pay_某著名企业

最近1天通过花呗支付的支付金额

pay_某著名企业_1d_009

订单ID

创建时间

……

支付

1.数据域:是指一个或多个业务过程或者维度的集合

2.原子指标:基于某一业务过程下的度量。例如:支付+金额=支付金额;

3.派生指标=原子指标+时间修饰+其他修饰词+原子指标;属性是用来刻画某个实体对象维度的数据形态;事实叫做度量,如购买数量

4.修饰:指针对原子指标的业务场景限定抽象。例如:最近N天

逻辑结构

举例

业务板块

电商业务

度量

支付金额

pay_某著名企业

时间周期

最近1天

最近1天SEO来源的海外搜索UV

se_uv_1d_032

3

英文字段名后面的编号有规律?

4

为什么要加个编号,如何体现出修饰词?

按照原子指标+时间周期自增

1.为了保障唯一性,算法可追溯;

2.一个派生指标涉及的修饰词个数和具体的修饰不可控,所以在保障唯一性的前提下英文字段名中体现所有修饰,并不可行;

指标举例

原子指标:搜索UV

时间周期:一天时间(1d)

修饰词:SEO来源、海外搜索

最近1天SEO来源的海外搜索UV

2

英文字段名是怎么生成的?

se_uv_1d_032

原子指标(搜索UV)英文名:se_uv

一天时间:1d

修饰词(seo来源、海外搜索):全部吞并在032编号中

1

指标如何拆解?

指标体系.基本原则

派生指标由原子指标、时间周期修饰词、若干其他修饰词组合得到。

原子指标、修饰词,直接归属在业务过程下。

派生指标可以选择多个修饰词,修饰词之间的关系为‘或’或者‘且’的关系,具体由具体的派生指标语义决定。

派生指标唯一归属一个原子指标,继承原子指标的数据域、与修饰词的数据

域无关。

一般而言:事务型指标和存量型指标只会唯一定位到一个业务过程,如果遇

到同时有两个行为发生、需要

文档评论(0)

AI_data + 关注
实名认证
文档贡献者

中级会计专业资格证持证人

我有10年以上的工作和管理经验,愿意分享职场的干货。

领域认证该用户于2023年02月13日上传了中级会计专业资格证

1亿VIP精品文档

相关文档