- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
贝叶斯网络在用户画像构建中的研究
摘要:为了解决用户兴趣变化动态推荐的问题,通过利用用户的实时上网数据动态更新贝叶斯网络各种兴趣的概率,结合兴趣阈值刻画用户画像并实现移动应用的实时推荐。经过实验表明,该算法能够有效挖掘用户的兴趣,并具有较好的扩展性。
关键词:用户画像 贝叶斯网络 兴趣阈值 动态推荐
1 引言
用户画像(Persona)最早是由交互设计之父Alan Cooper提出的,他认为用户画像是真实用户的虚拟代表,是根据一系列用户的真实数据而挖掘出的目标用户模型[1]。通常用户画像是根据用户的目标、行为、观点的差异抽取用户的典型特征,把用户的基本属性(年龄、性别、地域)、购买能力、行为特征、兴趣爱好、心理特征、社交网络大致地标签化。
用户画像研究是当前的一个热门话题,不少学者对移动互联网、互联网的数据构建用户画像,描述用户的群体特征,从而为精准营销提供数据支撑。曾鸿等通过对新浪微博数据进行采集分析,构建用户画像模型,描述企业用户群体的行为特征,支撑精准营销[1];张慷通过提取用户的上网行为特征,同时结合相关数据进行数据融合以及交叉分析,构建通信用户的画像模型[2];黄文彬等在分析移动用户的基站轨迹基础上,采用频繁模式挖掘、构建概率矩阵等方法,构建包含地理位置信息的用户画像模型[3];王庆福采用贝叶斯网络构建用户兴趣模型,以用户兴趣模型来刻画用户画像[4]。在借鉴已有研究成果的基础上,本文通过对移动互联网用户的历史数据进行多元回归分析,得到贝叶斯网络的初始参数,再利用Netica软件构造一个BN(Bayesian Networks,贝叶斯网络)模型,并根据用户实时发生的业务行为更新网络的参数,以此刻画每个用户的画像。
2 用户画像构建的相关研究
2.1 用户画像的定义
用户画像的本?|就是消费者特征“可视化”。用户画像首先通过用户一系列的行为信息进行用户行为的初步“刻画”;然后关联用户的动态行为数据进行画像的完善,以此提高用户需求偏好的准确度。本文先通过回归分析归纳用户的行为信息,再通过贝叶斯网络关联动态数据,更新用户对需求的偏好概率。
2.2 用户画像构建思路
基于用户画像的定义,本文刻画用户画像的步骤如图1所示。
2.3 多元线性回归模型
多元线性回归模型是反映自变量与因变量之间“紧密性”的关系。因此,本文在分析用户的生活习惯和消费行为的基础上,采用多元线性回归的方法来衡量用户对某种移动应用的初始兴趣度。
多元线性回归模型:假设影响因变量Y的自变量个数为N,自变量记为x1, x2, …, xn,则自变量与因变量是线性关系:
Y=β0+β1x1+β2x2+…+βnxn+ε (1)
其中,β1, β2, …, βn是回归系数;ε是与x1, x2, …, xn无关的未知参数,取值范围为(0, σ2)。
2.4 贝叶斯网络
众所周知,用户的兴趣可能会受到身边的朋友、同事或者家人的影响而发生改变。基于此,本文将通过贝叶斯网络构建一种适应用户兴趣变化的动态推荐方法。
(1)贝叶斯定理
贝叶斯定理源于一个“逆向概率”的问题。如果袋子里有N个白球、M个黑球,则摸到黑球的“正向概率”容易得出;那么如果事前并不知道白球和黑球的比例,经过随机摸出几个球后,如何推测黑白球的比例呢?因此,贝叶斯的推断不需要客观的依据,它实际上需要一个估计值,然后根据实际的结果对估计值不断修正。后来,Pierre Simona将贝叶斯的理论进一步发展为条件概率,帮助人们在概率相关的决策过程中,通过新获得的观察结果来更正对概率的判断。在事件B出现的前提下,事件A出现的概率等于A和B都出现的概率除以B出现的概率,具体如下:
(2)
其中,P(A|B)是后验概率;P(A)是先验概率;P(B|A)/P(B)是一个调整因子,是在已知某些观测所得到的结果。在预估先验概率的前提下,再加入观测结果,通过观测结果来增强或者削弱先验概率,由此得到更接近事实的后验概率[5]。
(2)贝叶斯网络
贝叶斯网络是基于概率推理的图形化概率网络,是不确定知识表达与推理领域最有效的理论模型之一。它将经典的概率论与图论结合起来,用于发现随机变量之间的潜在关系,适用于表述和分析不确定的事件,可以从分散的、粗糙的信息中作出推理[6-7]。
假定有随机变量组合X={X1, X2, …, Xn},xi表示Xi的取值。表达式p(X1=x1, X2=x2, …, Xn=xn)表示一个联合概率,即变量X1, X2, …, Xn的值分别是x1, x2, …, xn的概率。因此,给定一个随机变量集合的完全联合概率函数就能计算所有的边缘概率和更低阶的联合概率[6]。为了更直观
文档评论(0)