基于客户偏好的页面隐式电子商务推荐技术探究.docVIP

基于客户偏好的页面隐式电子商务推荐技术探究.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于客户偏好的页面隐式电子商务推荐技术探究   摘要:针对目前电子商务推荐系统存在的数据稀疏性问题,提出了基于客户偏好的隐式协同过滤算法CPPICF,并对算法进行了详细的设计,最后通过实验验证了该算法的有效性,提高了推荐系统的精确性。   关键词:电子商务;协同过滤;推荐技术   中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2008)11-20382-03      1 引言      在电子商务蓬勃发展的进程中,企业为了有效地提高客户服务水平,获取更多的商业效益,已经提出并实施了各种不同的电子商务推荐方法, 目前推荐系统中使用的主要推荐技术有协同过滤推荐、基于内容推荐、基于人口统计信息推荐、基于知识推荐和基于规则推荐[1]等。协同过滤推荐[2] (Collaborative Filtering Recommendation)是目前研究最多、应用最广的个性化推荐技术。这种方法一般要对客户进行分类,就是要求客户对项目(如商品)进行评分,这样往往会打断客户的购物过程,甚至影响客户的购买欲望而丢失客户;另外相当多的客户不愿意评分,从而导致了评分数据集的极端稀疏,继而影响推荐系统的精确性。针对这种情况下,本文提出了基于客户偏好的隐式协同过滤算法 (Client Preference Page Implicit Collaborative Filtering,CPPICF),着重研究了协同过滤中的客户近邻[3,4]问题,实现了信息的客观评分,较好地解决了数据的稀疏性问题。      2 协同过滤算法      协作过滤推荐的本质是分类客户对物品的评价,以此为依据识别出客户之间的相似,再通过客户的最近邻居进行推荐。在协作过滤推荐系统中,对客户描述是用一个向量来表示,这个向量是以物品的评分来构建的,并将随着客户与系统交互时间的增加而不断增大。也就是说,实现协同过滤算法,其最重要的环节是如何找到当前客户的最近邻居。为了找到目标客户的最近邻居,就要度量客户之间的相似性,然后选择相似性由高到低的若干客户作为当前客户的最近邻居,根据最近邻居的历史项目数据对当前客户进行推荐。   为了度量客户的相似度,一般是用矩阵来表示客户的评分,既构造一个m行n列的矩阵―A(m,n),代表m个客户及n个被评分项目,对于客户i和客户j来说,他们对项目的评分分别为:(ti1 ,ti2,ti3…tin)和(tj1 ,tj2,tj3…tjn),度量他们的相似度用sim(i,j)来表示。相关相似性[5]是假设经客户i和客户j共同评分的项目集合用Iij表示,则客户i和客户j之间的相似性sim(i,j)通过Pearson相关系数度量:      tic表示客户i对项目c的评分,ti和tj分别表示客户i和客户j对项目的平均评分。对于得到的客户集合来说,sim(i,j)值越大,客户的相似性越大。      3 算法的改进      在以上算法中,评分会打断客户的购物过程,影响客户的购买欲望,如果有相当多的客户没有进行评分,就会导致评分数据集的极端稀疏,从而使推荐系统的精度降低。为了以客观的数据代替主观的评分,项目数据直接以客户对网站页面的浏览时间(也称为兴趣度)为依据,来反映客户的兴趣趋向,以此查找客户的最近邻居,进行个性化的推荐。   3.1 算法设计   因为对任何一个客户来说,往往会在自己感兴趣的网页上停留有较长的时间,相反对于不感兴趣的网页上则会很快转到另处的兴趣页上,所以客户在网页上的浏览时间能真实地发映客户的兴趣爱好。显然因客户的知识层次、浏览速度等的差异会导致在相同页面上不同客户的浏览时间不同,但对同一客户来说,浏览页面的速度是一定的,所以就可以通过加权来解决这个问题。再者,客户对页面的浏览覆盖率远比要求客户对项目的显式评分要高的多,所以数据的稀疏问题得到了解决。依此在这里建立基于Client―PageTime的二维表(见表1)。      3.2 算法步骤(用伪代码表示)   定义:设PageTimej的加权平均时间值为tj,客户i和客户k共同对PageTimej的兴趣时间集合为pik,sim(i,k)为客户i和客户k的相似性值则:      输入:(Clienti,PageTime j)   输出:C=(C1,C2,C3…Ch)//客户的h个相似邻居   第一步:计算出网站网页的加权平均时间值,以填充客户没有访问到的页面,平滑数据的偏差。   For j=1 to m    ClientTotal=0    ClinetScore=0    For i=1 to n//计算加权平均时间   If tij”NULL” then   {   ClientScore=Clien

文档评论(0)

heroliuguan + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8073070133000003

1亿VIP精品文档

相关文档