基于客户偏好的页面隐式电子商务推荐技术探究.docVIP

下载本文档

2
0
约4.26千字
约 8页
2018-03-16 发布于北京
举报
版权申诉

基于客户偏好的页面隐式电子商务推荐技术探究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于客户偏好的页面隐式电子商务推荐技术探究　　摘要：针对目前电子商务推荐系统存在的数据稀疏性问题，提出了基于客户偏好的隐式协同过滤算法CPPICF，并对算法进行了详细的设计，最后通过实验验证了该算法的有效性，提高了推荐系统的精确性。　　关键词：电子商务；协同过滤；推荐技术　　中图分类号：TP311 文献标识码：A 文章编号：1009-3044(2008)11-20382-03 　　　　1 引言　　　　在电子商务蓬勃发展的进程中，企业为了有效地提高客户服务水平，获取更多的商业效益，已经提出并实施了各种不同的电子商务推荐方法, 目前推荐系统中使用的主要推荐技术有协同过滤推荐、基于内容推荐、基于人口统计信息推荐、基于知识推荐和基于规则推荐[1]等。协同过滤推荐[2] (Collaborative Filtering Recommendation)是目前研究最多、应用最广的个性化推荐技术。这种方法一般要对客户进行分类，就是要求客户对项目（如商品）进行评分，这样往往会打断客户的购物过程，甚至影响客户的购买欲望而丢失客户；另外相当多的客户不愿意评分，从而导致了评分数据集的极端稀疏，继而影响推荐系统的精确性。针对这种情况下，本文提出了基于客户偏好的隐式协同过滤算法 (Client Preference Page Implicit Collaborative Filtering，CPPICF)，着重研究了协同过滤中的客户近邻[3,4]问题，实现了信息的客观评分，较好地解决了数据的稀疏性问题。　　　　2 协同过滤算法　　　　协作过滤推荐的本质是分类客户对物品的评价，以此为依据识别出客户之间的相似，再通过客户的最近邻居进行推荐。在协作过滤推荐系统中，对客户描述是用一个向量来表示，这个向量是以物品的评分来构建的，并将随着客户与系统交互时间的增加而不断增大。也就是说，实现协同过滤算法，其最重要的环节是如何找到当前客户的最近邻居。为了找到目标客户的最近邻居，就要度量客户之间的相似性，然后选择相似性由高到低的若干客户作为当前客户的最近邻居，根据最近邻居的历史项目数据对当前客户进行推荐。　　为了度量客户的相似度，一般是用矩阵来表示客户的评分，既构造一个m行n列的矩阵―A(m,n)，代表m个客户及n个被评分项目，对于客户i和客户j来说，他们对项目的评分分别为：(ti1 ,ti2,ti3…tin)和(tj1 ,tj2,tj3…tjn)，度量他们的相似度用sim(i,j)来表示。相关相似性[5]是假设经客户i和客户j共同评分的项目集合用Iij表示，则客户i和客户j之间的相似性sim(i,j)通过Pearson相关系数度量：　　　　tic表示客户i对项目c的评分，ti和tj分别表示客户i和客户j对项目的平均评分。对于得到的客户集合来说，sim(i,j)值越大，客户的相似性越大。　　　　3 算法的改进　　　　在以上算法中，评分会打断客户的购物过程，影响客户的购买欲望，如果有相当多的客户没有进行评分，就会导致评分数据集的极端稀疏，从而使推荐系统的精度降低。为了以客观的数据代替主观的评分，项目数据直接以客户对网站页面的浏览时间(也称为兴趣度)为依据，来反映客户的兴趣趋向，以此查找客户的最近邻居，进行个性化的推荐。　　3.1 算法设计　　因为对任何一个客户来说，往往会在自己感兴趣的网页上停留有较长的时间，相反对于不感兴趣的网页上则会很快转到另处的兴趣页上，所以客户在网页上的浏览时间能真实地发映客户的兴趣爱好。显然因客户的知识层次、浏览速度等的差异会导致在相同页面上不同客户的浏览时间不同，但对同一客户来说，浏览页面的速度是一定的，所以就可以通过加权来解决这个问题。再者，客户对页面的浏览覆盖率远比要求客户对项目的显式评分要高的多，所以数据的稀疏问题得到了解决。依此在这里建立基于Client―PageTime的二维表（见表1）。　　　　3.2 算法步骤（用伪代码表示）　　定义：设PageTimej的加权平均时间值为tj，客户i和客户k共同对PageTimej的兴趣时间集合为pik，sim(i,k)为客户i和客户k的相似性值则：　　　　输入：(Clienti，PageTime j) 　　输出：C=(C1，C2，C3…Ch)//客户的h个相似邻居　　第一步：计算出网站网页的加权平均时间值，以填充客户没有访问到的页面，平滑数据的偏差。　　For j=1 to m 　　 ClientTotal=0 　　 ClinetScore=0 　　 For i=1 to n//计算加权平均时间　　If tij”NULL” then 　　{ 　　ClientScore=Clien