- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
在开展对数据的各种分析应用之前,如果在数据仓库的基础上再开展一些数据标签的
工作,提前做一些准备工作,那么后续对数据应用的设计开发将更加深入、更加便利,
也更容易快速交付。
整个数据中台的系统规划如
下图所示。从这里可以看到,
数据标签介于数据仓库与数据集市之间,在数据仓库之上,是为数据集市做的准备工
作。
数据标签在数据中台中的位置
如果以数据标签为基础再开展各种数据分析与应用,那么对数据的分析利用将更加深
入与便捷,这就是数据标签的作用。
01什么是数据标签?
标签由标签和标签值组成,打在目标对象上,如下图所示。
打标签示例
标签由互联网领域逐步推广到其他领域,打标签的对象也由用户、产品等扩展到渠道
、营销活动等。
在互联网领域,标签有助于实现精准营销、定向推送、提升用户差异化体验等
;
在行业领域,标签更多助力于战略分级、智能搜索、优化运营、精准营销、优
化服务、智慧经营等。
02数据标签的分类
对数据打标签,可以由浅入深地分为以下三种类型。
1)属性标签
,就是对业务实体各种属性的真实刻画。比如企业类型、所处行业、经营范围、所处
地域等信息,用户性别、年龄段、职业状况、身高体重等信息,发票类别、代开发票、
作废发票、异常发票等信息。
这些标签可以从某些字段直接获得,也可以通过某些字段进行一个条件判断获得。
2)统计标签
,就是对业务实体从某个维度的度量进行的汇总,比如企业的月经营业绩、月增长额
、季增长额、前n名的客户或供应商的交易额等。
通过这些统计可以真实地反映该企业的经营状况。
3)算法标签
,就是通过某些算法推理得到的特性。算法标签相对比较复杂,但非常有用。它既可
以设计得简单易行,如企业的行业地位、交易成功率、客户开拓能力、客户忠诚度、企
业成长度等。
也可以运用一些数据挖掘算法进行推算,如通过用户近期的购买商品推算该用户的性
别、职业、兴趣喜好、购物习惯,以及是否怀孕、是否有小孩等信息,以便日后的精准
营销、商品推荐。
华为将标签分为事实标签、规则标签和模型标签,如下图所示。
三种类型的标签
事实标签
是描述实体的客观事实,关注实体的属性特征,如一个部件是采购件还是非采购件,
一名员工是男性还是女性等,标签来源于实体的属性,是客观和静态的。
规则标签
是对数据加工处理后的标签,是属性与度量结合的统计结果,如货物是否是超重货物
,产品是否是热销产品等,标签是通过属性结合一些判断规则生成的,是相对客观和静
态的。
模型标签
则是洞察业务价值导向的不同特征,是对于实体的评估和预测,如消费者的换机消费
潜力是旺盛、普通还是低等,标签是通过属性结合算法生成的,是主观和动态的。
03数据标签的设计
数据标签通常按照以下步骤分析设计。
1、确定标签对象
数据标签的设计首先从确定标签对象开始。数据标签是规划在数据集市这边的,就意
味着它的设计与数据分析业务息息相关。
真实的世界有那么多的事物,每个事物都有那么多的属性,因此漫无目的地打标签没
有意义。给什么事物打什么样的标签,一定是与分析业务息息相关的。
数据标签的对象可以是人(个人/群体)、事物与关系,比如用户、企业、订单、发票
,以及开票行为、供销关系,等等。
给什么对象打标签,关键在于我们对数据分析与应用的兴趣点,对哪些方面的事物感
兴趣。譬如,要进行精准营销就要关注用户的购物喜好,要进行防虚开风控就要关注企
业开票行为,等等。
2、打通对象关系
很多标签,特别是算法标签,都是通过比对某个对象方方面面的状况推算出来的。如
何才能推算呢?就需要通过某些key值将该事物方方面面的属性关联起来。
譬如,将用户通过订单与其购买的商品关联起来,然后又将哪些是婴儿用品关联起来
,那么通过这些关联就可以推算某用户是否有了小孩;将企业所处的行业与地域关联起
来,同时汇总各行业、各地区的平均水平,就可以推算该企业在本行业、在该地区的经
济地位,等等。
3、标签类目设计
确定了标签对象,打通了对象关系,那么就正式进入标签设计环节。
标签的设计首先按类目进行划分,把标签对象按照业务划分成多个不同的方面,接着
再依次确认每个类目下都有哪些标签。
04数据标签的实现
通过以上分析,确定了数据标签的对象以及标签的类目,接着就是数据标签的设计实
现。
每个标签都有它的规则,通过一系列脚本定期生成。但数据标签设计实
您可能关注的文档
- 数字化工厂介绍课件页文档.ppt
- 屠宰场业务合同协议书.docx
- 放心消费完整版本.doc
- 党支部支委成员及党小组长工作责任清单.docx
- 领导力期末考试试题及答案.docx
- 五年级上册信息技术-第1课-寻找信息王国的朋友.docx
- 安全生产、文明施工措施、环境保护.docx
- 中国古代玉文化课件.ppt
- 课件模板大全(齐全).ppt
- 配气机构练习题.doc
- 广东省深圳市龙岗区德琳学校初中部2022-2023学年七年级上学期期中考试英语试题(原卷版+解析).docx
- 广东省珠海市第四中学、立才学校、梅华中学2022-2023学年七年级上学期期中质量检测英语试题(原卷版+解析).docx
- 教科版2024-2025学年六年级科学上册第一单元第4课时《生物细胞》同步练习(含答案).docx
- 牛津沪教版七年级英语上册单元速记•巧练 Unit 7 【单元测试 · 提高卷】.docx
- 牛津沪教版七年级英语上册单元速记•巧练 Unit 5【单元测试 · 基础卷】.docx
- 广东省深圳市南山区太子湾学校2022-2023学年七年级上学期期中考试英语试题(原卷版+解析).docx
- 广东省深圳市南山第二外国语学校(集团)2022-2023学年七年级上学期期中考试英语试题(含听力)(原卷版+解析).docx
- 牛津沪教版七年级英语上册单元速记•巧练 2023-2024学年七年级上学期期末英语全真模拟卷(深圳适用02).docx
- 广东省阳江市江城区2022-2023学年七年级上学期期中考试英语试题(原卷版+解析).docx
- 广东省梅州市梅县区宪梓中学2022-2023学年七年级上学期期中英语试题(原卷版+解析).docx
文档评论(0)