- 1、本文档共42页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
用户行为分析与数据挖掘模型研究与应用
2013-03-26
介绍框架
2
用户群体
个体属性
(职业/性别/收入等)
社会属性
(家庭/团队等)
个体偏好
(阅读/视频/音乐等)
群体相似性
(协同/关联等)
用户个体属性判别模型
用户社交属性判别模型
用户的业务偏好分析模型
基于群体相似性的智能推荐模型
目录
3
总体框架
4
训练
应用
模型描述(一级)
从GPRS数据流量的角度划分
数据总量:约5.5亿,抽样数据:约100万,抽样率:1.82‰
用户
低流量用户
中流量用户
高流量用户
低流量客户
中流量客户
高流量客户
月GPRS流量
[0, 1M)
[1M, 30M]
(30M, +∞)
抽样客户数
393677
329375
276948
抽样客户占比
39.37%
32.94%
27.69%
5
模型描述(二级)
根据客户个人属性划分:6大属性,37(26)个标签
属性不可直接获取
抽取部分客户做调研
关联调研数据与基础画像数据,为每一维度每一类别建立类中心向量模型
属性
性别
年龄
地域
学历
职业
收入
标签数
2
8(4)
2
5
14(7)
6
6
回收9749/发送92万,回收率:10.6 ‰
年龄-中老年
地域-农村
年龄-青壮年
职业-学生
性别-男
职业-工人
本地、漫游、GPRS…
… …
*括号内为类别优化后的标签数
模型应用
应用
7
手机号码
一级标签
二级标签
性别
年龄
地域
学历
职业
收入
***
高流量
男
青壮年
(25-40岁)
城市
大学本科
自由职业者
高于9000元
***
低流量
女
中老年及老年
(50岁以上)
农村
初中及以下
农民
3001-5000元
用户属性及标签
性别
男
女
年龄
青少年(13-24岁)
青壮年(25-40岁)
中年(41-50岁)
中老年及老年(50岁以上)
地域
城镇
农村
职业
公务员
企业白领
工人
自由职业者
农民
学生
无业
学历
初中及以下
高中/中专/技校
大专
大学本科
硕士及以上
收入
低于1500元
1501-3000元
3001-5000元
5001-7000元
7001-9000元
高于9000元
8
计算过程
9
1、由于各数据字段单位、数量范围、表示含义不同,因此首先需要对语音、短信、上网、费用等做数据变换,对数变换后归一化。每个用户形成一个17维的向量,例如(0.5236,0.3067,…,0.8300)。
2、将训练数据(调研数据及关联画像)近1万个样本生成特征文件。特征文件中存储的是各二级维度下各标签代表类别的类中心向量。例如“中流量男用户的类中心”:(0.7429,0.4552,…,0.8322);“中流量女用户的类中心”:(0.7651,0.3464,…,0.8283)。
3、对需要打标签的新数据做与第1步相同的数据转换。
例如某用户本地计费时长90分钟,长途计费时长1分钟……总费用30元。
经过数据转换后得到该用户的向量:(0.7435,0.5330,…,0.8300)。
4、将每一个新用户转换后的数据与各二级维度下各标签的类中心对比,根据计算结果,将与用户距离近的类别标签赋予该用户。
介绍框架
10
用户群体
个体属性
(职业/性别/收入等)
社会属性
(家庭/团队等)
个体偏好
(阅读/视频/音乐等)
群体相似性
(协同/关联等)
用户个体属性判别模型
用户社交属性判别模型
用户的业务偏好分析模型
基于群体相似性的智能推荐模型
目录
11
研究目标和意义
12
关系群体社会网络
动态移动轨迹
OD稳定点发现
提升家庭、集团客户营销精准度
针对性制定竞争策略
加强核心客户维系和粘性价值
利用群体影响力拓展营销市场
掌握用户群体出行规律,强化广告投放、业务营销策略
拓展信息化服务业务产品
提升目标客户群体圈定的准确率和效率
丰满客户画像
了解客户分布,定位商务区、居民区、流动性大区域
对用户的交往、移动轨迹等使用社会网络分析相关分析方法进行建模,判别用户间各类交往关系,如家庭、同事等。
研究方法
13
包括用户个人通话行为、用户交往圈以及用户移动轨迹,首次引入不同时段的位置信息,提升关系识别精准度。
从数据仓库中读取源数据,校验数据的完整性,去除冗余和具有明显错误的数据。
1)OD发现/轨迹分析:分析基站数据得到用户移动轨迹的时间和空间规律,可判定用户的OD稳定点,有助于描述用户行为模式和关系特征;
2)特征提取:提取样本OD、通话频次、交往规律等用户行为特征,作为关系分类判别的依据;
3)关系分类:基于特征建立不同关系分类训练器,计算不同关系和社群聚类,作为社会关系网络基础。
地图直观展示用户稳定点和关系分布,动态显示用户群行为轨迹,可作为营销参考依据,并支持灵活扩展配置。
使用河南济源三个月
您可能关注的文档
- 新闻采访与写作(第三版)丁柏铨绪论.pptx
- 新闻词汇英语.doc
- 新闻道德与新闻法(济南大学法学院).ppt
- 用爱让班级的风帆远扬概要.pptx
- 消防常识(用电安全)概要.ppt
- 用把较大数改写成用“万”或“亿”作单位的数概要.ppt
- 新五年级上册数学数学广角——植树问题讲课.ppt
- 用百分数解决问题课件概要.ppt
- 新乡建:“美丽乡村”建设.ppt
- 新乡许昌平顶山三市2016届高三第二次调研考试.doc
- 2025中国冶金地质总局所属在京单位高校毕业生招聘23人笔试参考题库附带答案详解.doc
- 2025年01月中国人民大学文学院公开招聘1人笔试历年典型考题(历年真题考点)解题思路附带答案详解.doc
- 2024黑龙江省农业投资集团有限公司权属企业市场化选聘10人笔试参考题库附带答案详解.pdf
- 2025汇明光电秋招提前批开启笔试参考题库附带答案详解.pdf
- 2024中国能建葛洲坝集团审计部公开招聘1人笔试参考题库附带答案详解.pdf
- 2024吉林省水工局集团竞聘上岗7人笔试参考题库附带答案详解.pdf
- 2024首发(河北)物流有限公司公开招聘工作人员笔试参考题库附带答案详解.pdf
- 2023国家电投海南公司所属单位社会招聘笔试参考题库附带答案详解.pdf
- 2024湖南怀化会同县供水有限责任公司招聘9人笔试参考题库附带答案详解.pdf
- 2025上海烟草机械有限责任公司招聘22人笔试参考题库附带答案详解.pdf
文档评论(0)