用户画像构建的流程与方法.docxVIP

  • 23
  • 0
  • 约1万字
  • 约 18页
  • 2022-02-19 发布于四川
  • 举报
用户画像构建的流程与方法 TOC \o 1-5 \h \z \o Current Document 什么是用户画像 2 \o Current Document 为什么需要用户画像 3 \o Current Document 二、 用户画像流程 4 \o Current Document 整体流程 4 1) 目标分析 4 2) 标签体系构建 5 3) 画像构建 5 \o Current Document 标签体系 6 1) 事实标签 8 2) 模型标签 8 3) 高级标签 9 \o Current Document 三、 构建用户画像 9 \o Current Document 人口属性画像 10 \o Current Document 兴趣画像 12 1) 内容建模 13 2) 兴趣衰减 15 \o Current Document 地理位置画像 15 \o Current Document 四、 用户画像评估和使用 17 \o Current Document 效果评估 17 \o Current Document 用户画像使用 17 人口属性画像 人口属性包括年龄、性别、学历、人生阶段、收入水平、消费水平、所属 行业等。这些标签基本是稳定的,构建一次可以很长一段时间不用更新,标签 的有效期都在一个月以上。同时标签体系的划分也比较固定,表10-2是中国无 线营销联盟对人口属性的一个划分。 大部分主流的人口属性标签都和这个体系类似,有些在分段上有一些区 别。 ▼表10-2人口标签 性别 男 性别 男 女 女 未知 未知 年龄(岁) 12以下 从事行业 广告/营销/公关 12 ?17 航天 18 ?19 农林化工 20 ?24 汽车 25 ?29 计算机/互联网 30 ?34 建筑 35 ?39 教育/学生 40 ?44 能源/采矿 45 ?49 金融/保险/房地产 50 ?54 政府/军事 55 ?59 服务业 60 ?64 传媒/出版/娱乐 65及以上 医疗/保险服务 未知 制药 月收入 3500元以下 零侈 3500 ?5000 元 电信/网络 5000 ?8000 元 旅游/交通 8000 ?12 500 元 其他 12 500 ?25 000 元 教育程度 初中及以下 25 001 ?40 000 元 高中 40 000元以上 中专 未知 大专 婚姻状态 未婚 本科 已婚 硕士 离异 博士 未知 很多产品(如QQ、Facebook等)都会引导用户填写基本信息,这些信息就 包括年龄、性别、收入等大多数的人口属性,但完整填写个人信息的用户只占 很少一部分。对于无社交属性的产品(如输入法、团购App、视频网站等), 用户信息的填充率非常低,有的甚至不足5%。 在这种情况下,一般会用填写了信息的用户作为样本,把用户的行为数据 作为特征训练模型,对无标签的用户进行人口属性的预测。这种模型把有标签 用户的标签传给与他行为相似的用户,可以认为是对人群进行了标签扩散,因 此常被称为标签扩散模型。 下面使用视频网站性别年龄画像的例子来说明标签扩散模型是如何构建 的。某个视频网站希望了解自己的用户组成,于是对用户的性别进行画像。通 过数据统计,有大约30%的用户在注册时填写了个人信息,将这30%的用户作为 训练集,以构建全量用户的性别画像,所用数据如表10-3所示。 ▼表10-3视频网站用户数据 uid 性别 观看影片 525252 男 Game of throat 532626 Runing men、最强大脑 526267 琅琲榜、伪装者 573373 女 欢乐喜剧人 下面来构建特征。通过分析发现男性和女性对于影片的偏好是有差别的, 因此使用用户观看的影片列表预测用户性别有一定的可行性。此外,还可以考 虑用户的观看时间、浏览器、观看时长等,为了简化,这里只使用用户观看的 影片特征。 由于观看影片特征是稀疏特征,所以可以调用MLlib,使用LR、线性SVM 等模型进行训练。考虑到注册用户填写的用户信息的准确性不高,所以可以从 30%的样本集中提取准确性较高的部分(如用户信息填写较完备的)用于训练, 因此整体的训练流程如图10-7所示。 对于预测性别这样的二分类模型,如果行为的区分度较好,一般准确率和 覆盖率都可以达到70%左右。 有性S!1年龄用 户(30%)提取观看的影 有性S!1年龄用 户(30%) 提取观看的影 片作为特征 ▲图10-7训练流程 对于人口属性标签,只要有一定的样本标签数据,并找到能够区分标签类 别的用户行为特征,就可以构建标签扩散模型。其中使用的技术方法主要是机 器学习中的分类技术,常用的模型有LR、FM、SVM、GBDT等。 兴趣画像 兴趣画像是互联网领域中使用最

文档评论(0)

1亿VIP精品文档

相关文档