基于混合Markov链的用户浏览预测模型.docVIP

  • 5
  • 0
  • 约4.48千字
  • 约 6页
  • 2017-03-21 发布于北京
  • 举报

基于混合Markov链的用户浏览预测模型.doc

基于混合Markov链的用户浏览预测模型.doc

基于混合Markov链的用户浏览预测模型 摘要:根据Web用户的浏览历史建立用户浏览预测模型是Web环境下实现个性化服务和开发各种浏览导航工具的关键。该文首先利用PLSA模型对Web用户进行用户聚类,然后建立基于用户类别的混合Markov链用户浏览预测模型,该模型更能准确地描述用户浏览特征。实验结果表明了该模型的优越性。 关键词:Markov链 用户聚类 用户浏览预测模型 中图分类号: TP391.1 文献标识码:A 文章编号:1007-9416(2016)04-0000-00 Abstract :In Web environment, according to Web users’ navigation history, building user browsing prediction model are keys to achieve the personalized services and develop all kinds of browsing navigation tools. In the paper, at first we produce similar user groups based on PLSA model, then according to different user category, user browsing prediction model based on mixture Markov chains is built, this model can more accurately describe user browsing characteristics. Experimental result shows the superiority of the model. Key words :Markov chain; user clustering; user navigation prediction model 面对急剧增大的Web空间,用户要进行有效地浏览变得非常困难,使得及时发现Web用户的浏览偏好,并为用户提供有效的导航和个性化服务成为一个研究热点。而建立有效的用户浏览预测模型,对用户的浏览做出准确的预测,是实现这些导航和个性化服务的关键。Markov模型是一种经典的概率统计模型,在Web日志挖掘领域,它被用于建立Web用户的浏览预测模型。最早采用Markov模型分析Web用户访问行为的是Bestavros,采用一阶隐Markov模型预测用户的链接选择[1]。Sarukkai通过EPA服务器日志文件上的实验表明,基于Markov链浏览预测模型的准确率可以达到70%左右[2]。 用户在Web空间的浏览过程是一个受浏览目的、兴趣爱好、文化背景等多种因素影响的复杂过程。由于这些因素的差异,各个用户的浏览过程表现出不同的个性化特点,然而观察大量用户的浏览过程可以发现某些用户的浏览过程表现出相同或相近的特点,所以基本Markov浏览预测模型采用一个Markov链描述所有用户的浏览特征,明显过于简单,其预测结果也必然存在较大误差。这里首先基于概率潜在语义模型(PLSA)[3]对用户聚类,然后根据文献[4]提出的类Markov链假设,分别为每个类别的用户单独建立Markov链,用以描述该类别用户的浏览特征。为了有所区别,我们将单Markov链预测模型称为单Markov链模型,而基于用户类别的含有多个Markov链的模型称为混合Markov链模型[5]。 1 基于PLSA模型的用户聚类 1.1 概率潜在语义模型概述 概率潜在语义分析(Probabilistic Latent Semantic Analysis, PLSA)[3,6]模型起源于自然语言处理研究,该方法使用概率模型来表示“文档-潜在语义-词”三者之间的关系。这里在Web日志挖掘中引入PLSA模型,使用该模型表示“用户会话-潜在因素-页面”三者之间的概率关系,用户会话和页面都可以映射到同一个潜在因素空间上。在计算模型方面,定义一个似然函数,并利用最大期望值(EM)算法获得潜在因素和这两个对象集合之间概率关系的最大似然估计的局部最优解。 Web日志数据预处理之后,得到一个大小为n的页面集合P p1,p2,…,pn 和一个大小为m的用户会话集合S s1,s2,…,sm 以及一个用户会话和页面的共现矩阵SP [w(si,pj)]m×n。用户会话是由一系列Web页面组成,它反映了单个用户的浏览行为。其中w(si,pj)表示页面pj在用户会话si上的权重,该权重可以是一个二进制,表示页面在用户会话中存在与否,它也可以是一个反映页面在用户会话中的存在情况或者持续时间的函数。这里使用Z z1,z2,…,zk 表示潜在因素的集合,K为

文档评论(0)

1亿VIP精品文档

相关文档