- 1、本文档共15页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
《1号店架构师王富平:一号店用户画像系统实践
我先引用梵高的一句话:“我想强调的是,同一个人有多样的自画像。与其追求照相般的相似性,不如深入地发掘相似处”。下图是是当时梵高比较得意时的画像,戴了礼帽,穿了西服,但那时耳朵已经割掉了。我觉得作为一个好的架构师,要有艺术家的精神。时至今日架构发生了很多变化,新语言在不断出现,我觉得没必要把思维停留在某一个方面。
用户画像的定义
用户画像定义使用标签来量化用户特性属性,达到描述用户的目的。用户画像的难点就是数据源,因为你拿要拿到足够多足够全的数据很不容易,所以要与业务结合,比如说这个人在30天内购买了你的商品,这就是一个标签,但是如果你不参与开发这个系统,你不会想到有这个标签。然后是动态更新,一个人是不断变化的,就像梵高一样,他不同时期的自画像也是不一样的。
假设现有用户画像有姓名、地域两个属性,你将如何使用?
最简单的分析不同性别的群体特征,做特定营销。分析广州、北京、客户的群体特征,分析90后、80后的群体特征。其实这里面有共同点,就是说分类和聚类。京东也好、淘宝也好、一号店也好,我不可能真的每一个用户生成一套推荐方案,我们都是把人分成了一万个类,或者一千个类,我们把你划分到某一个类别里面,在那个类别里面做一个推荐。而且群体特征往往更能反映你的个人喜好,就是说其实人与人之间是有共同点的,也是有异同点的。
分类—聚类
迈出个性化的第一步,用户画像的应用开始
1号店建立用户画像的初中是来自于《千人千面》项目,简而言之:分析不同群体特征,针对群体进行推荐调整,典型的群体有小区、学校公司等。下图是2015年9月份转化率的数据。我们覆盖面也比较大,目前差不多355家公司,591个行业,覆盖293个城市的4.26万个小区。
1号店从零开始打造了自己的用户画像系统,包含了用户标签画像、用户偏好画像。经历了全量版画像、Storm版实时画像、电商用户标签画像等演进和完善的过程。在两年的时间里,遇到了性能瓶颈、数据质量评估、用户标签的膨胀、画像在精准化营销等应用场景的摸索,一步步成长,在推荐系统发挥了巨大作用。
用户标签画像
我们的用户标签包含基本特征、社会身份、顾客用户生命周期、类目偏好等等。比如说你怎么判断一个人是不是对女装感兴趣,假设我们有一个类目就是女装,那很好办,如果你购买都是女装,那会认为你这个人对女装比较感兴趣。如下图所示。
挑战
我们期间遇到了两方面的挑战:
亿级画像系统实践和应用
记录和存储亿级用户的画像,支持和扩展不断增加的维度和偏好,毫秒级的更新,支撑个公司性化推荐、广告投放和精细化营销等产品
怎么做到的
用户画像算法模型不断优化
引入Storm等实时技术
主题推荐标签、用户命名实体等新增标签补充进画像
HBase的离线和在线分离、Hbase的KV读和Solr的批量读分离、region热点监控和切分
数据流不断优化
数据存储改进
第一版画像现状
偏好系统包括类目偏好和导购属性偏好两个部分,第一版的偏好系统接口调用数每天达千万次,主要服务于推荐栏位和EMD,但改变的偏好系统存在性能低下,偏好得分分布不合理等问题:
运行一次全量的数据更新太慢
用户的偏好得分数据分布不合理,得分呈多波峰分布,且在6.0、8.0区间的得分数目几乎为0
用户强偏好和弱偏好的阈值界限未有明显规定
用户未产生新的行为,兴趣偏好分值将不会发生变化(未按时间进行衰减)
新版画像系统流程
这个很简单,就是大家都能想到的离线和在线,离线要基于用户的行为,产品的信息进行打分,要得到一个个人的偏好,前端提供一个接,基本上是这样子。
画像模型优化1
关于算法模型做了一些优化,第一个优化就是得分,通过操作得分使它的偏好更有区分性,历史行为应有衰减。你这个得分假设永远是叠加的,这也是有问题的,因为你一个月之前或者一年之前所有的行为,如果现在还影响着你的得分,会有不准确性,所以会有一个历史的衰减得分。偏好得分分布应与用户对类目的权重分布一致,关键是对数据的处理,还有怎么样去调整你的模型。
偏好画像的得分应满足三个条件:
用户在此类目或导购属性上的操作越多,得分越高
用户对类目或导购属性的喜好程度不同,可以通过偏好得分区间体现
用户的历史行为应有衰减
对于类目偏好,需先将用户对类目偏好离散化提高某些场景性能,最简单的行为可划分为两档【喜欢|一般】。
参数调整原则:
衰减系数的设置满足两个月衰减一半
(结合用户在不同类目下的购买周期,见下页)
各类行为权重之间的比例设置等同于用户各种行为数目的比例
偏好得分分布应与用户对类目的权重分布一致
画像模型优化2
然后有一个购买周期的问题,就是说不同的东西会有一个购买周期的,比如说牙膏多久前买的,牛奶多久前买的,这些东西的周期性是比较强的。后
您可能关注的文档
- 《14秋教育技术学作业3.docx
- 《14章单元测验.doc
- 《14种解酒妙方大集合.doc
- [2014宁波继续教育模拟考试两套.doc
- 《14种最巧妙的仿生设计.doc
- [2014届泉州市高三年毕业班上学期单科质检历史试题.doc
- 《14第七章心理咨询与心理治疗.doc
- [2014年10月自考英语一讲义Unit01_含课文、生词表、课后练习及答案.doc
- 《14第十四章控制与控制过程.doc
- [2014年专技人员公需科目考试题及答案.doc
- DB23_T 3866-2024冰上龙舟赛事组织服务规范.docx
- DB32 2163-2012 棉纱单位可比综合电耗限额及计算方法.docx
- DB32∕T 2429-2013 棉花田间生长发育观察记载规范.docx
- DB23_T 3820-2024 工业互联网综合平台数据质量管理规范.docx
- DB23_T 3474-2023非煤智慧矿山信息系统技术规范.docx
- DB3201_T 1106-2022 工程地质层划分技术规范.docx
- DB33T 2515-2022公共机构“零碳”管理与评价规范.docx
- DB3301_T 0415-2023 装修垃圾收运处置管理规范.docx
- DB3311/T 106―2019“丽水山居”民宿服务要求与评价规范.docx
- DB3201T 1127-2022 慈善捐赠受赠管理规范.docx
最近下载
- 金蝶云苍穹考试认证理论考题汇总(精华版).pdf VIP
- 钢梯设计图集15J401.pdf VIP
- 在项目规划评审会上的致辞发言3.docx
- 建筑工程图集 G410-1~2:1.5m×6.0m预应力混凝土屋面板(2004年合订本).pdf VIP
- 《康复评定技术》课件——第十七章 常见神经疾病的评定技术.ppt VIP
- 山东省水产品出口贸易现状、问题及对策分析.docx VIP
- 2025年上海黄浦区中考模拟语文试卷(含答案) .pdf VIP
- 《综合与实践:白昼时长规律的探究》教案.docx VIP
- 2025年妇产科护理技术规范.pdf VIP
- 施工现场高温季节安全防护与防暑管理培训.pptx VIP
文档评论(0)