- 1、本文档共75页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
;
数据架构
从用户画像的数据架构谈需要掌握的大数据模块和开发语言;
开发流程
第一阶段:目标解读
在建立用户画像前,首先需要明确用户画像服务于企业的对象,根据业务方需求,未来产品建设目标和用户画像分析之后预期效果;
第二阶段:任务分解与需求调研
经过第一阶段的需求调研和目标解读,我们已经明确了用户画像的服务对象与应用场景,接下来需要针对服务对象的需求侧重点,结合产品现有业务体系和“数据字典”规约实体和标签之间的关联关系,明确分析纬度;
第三阶段:需求场景讨论与明确
在本阶段,数据运营人员需要根据前面与需求方的沟通结果,输出《产品用户画像规划文档》,在该文档中明确画像应用场景、最终开发出的标签内容与应用方式,并就该份文档与需求方反复沟通确认无误。
第四阶段:应用场景与数据口径确认
经过第三个阶段明确了需求场景与最终实现的标签纬度、标签类型后,数据运营人员需要结合业务与数据仓库中已有的相关表,明确与各业务场景相关的数据口径。在该阶段中,数据运营方需要输出《产品用户画像实施文档》,该文档需要明确应用场景、标签开发的模型、涉及到的数据库与表,应用实施流程;
第五阶段:特征选取与模型数据落表
本阶段中数据分析挖掘人员需要根据前面明确的需求场景进行业务建模,写好HQL逻辑,将相应的模型逻辑写入临时表中,抽取数据校验是否符合业务场景需求。
第六阶段:线下模型数据验收与测试
数据仓库团队的人员将相关数据落表后,设置定时调度任务,进行定期增量更新数据。数据运营人员需要验收数仓加工的HQL逻辑是否符合需求,根据业务需求抽取查看表中数据范围是否在合理范围内,如果发现问题及时反馈给数据仓库人员调整代码逻辑和行为权重的数值。
第七阶段:线上模型发布与效果追踪
经过第六阶段,数据通过验收之后,就可以将数据接口给到搜索、或技术团队部署上线了。上线后通过对用户点击转化行为的持续追踪,调整优化模型及相关权重配置。;
各阶段关键产出物;;
需要掌握的其他非技术??容
l、数据分析
如何做数据调研、对于需求方提出的标签如何结合数据情况给出相应的解决方案;
…
2、用户画像工程化
用户标签体系中需要开发哪些标签;
这些标签的调度流是如何构成的;
如何对每天的调度作业进行监控;
哪些数据库可用于存储标签,为何用这些数据库进行存储;
…
3、业务知识
需要开发的标签服务于业务上的哪些应用
….
4、画像产品形态及如何服务与业务
画像产品化后包括哪些模块;
如何评价标签在业务上的应用效果;
…;
这里tagid表示标签名称,userid表示用户id,tagweight表示标签权重,reserve表示一个预留字段。分区方式为(日期+标签主
题)分区,设置两个分区字段更便于开发和查询数据。该表结构下的标签权重仅考虑统计类型标签的权重,如:历史购买金额标签对应的权重为金额数量,用户近30日访问天数为对应的天数,该权重值的计算未考虑较为复杂的用户行为次数、行为类型、行为距今时间等复杂情况。通过全连接的方式与前面每天的数据做join关联
例如,对于主题类型为“会员”的标签,插入‘’日的全量数据,可通过语句:insertoverwritetable
dw.userprofile_tag_useridpartition(data_date=,tagtype=’member’)来实现。查询截止的被打上会员标签的用户量,可通过语句:selectcount(*)fromdw.userprofile_tag_useridwheredata_date=来实现。;
这里tagid表示标签名称,userid表示用户id,act_cnt表示用户当日行为次数,如用户当日浏览某三级品类商品3次,则打上次
数为3,tag_type_id为标签类型,如母婴、3C、数码等不同类型,act_type_id表示行为类型,如浏览、搜索、收藏、下单等行为。分区方式为按日期分区,插入当日数据。
例如,某用户在‘’日浏览某3C电子商品4次(act_cnt),即给该用户(userid)打上商品对应的三级品类标签
(tagid),标签类型(tag_type_id)为3C电子商品,行为类型(act_type_id)为浏览。这里可以通过对标签类型和行为类型两个字段以配置维度表的方式,对数据进行管理。例如对于行为类型(act_type_id)字段,
文档评论(0)