- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于用户行为聚类个性化推荐算法
基于用户行为聚类个性化推荐算法
[摘要]将介绍一种基于用户行为聚类的协同过滤推荐算法苛刻算法首先采用web日志和数据库记录的方法,将用户的行为记录下来,并将这些隐性的用户行为转化为显性的用户对项目评价;然后采用改进后的相似度计算方法计算用户之间的相似度;接着对用户进行聚类,将用户按照他们的行为自动地划分为若干个用户聚类簇;最后根据用户对最近邻居的评分来预测其对目标项目的评分,进而产生推荐。
[关键词]个性化推荐聚类分析协同过滤平均绝度误差
中图分类号:TP3文献标识码:A文章编号:1671-7597(2009)1120074-01
一、研究现状
1.传统算法中在线执行效率低的问题。所谓的执行效率低即在海量用户数据中在线寻找目标用户邻居的过程非常浪费时间,针对该问题新的算法将采用用户聚类的方法建立离线模型,从而缩小邻居用户查找时的搜索空间,节省在线处理数据的时间,然后可对数据进行定期的更新,提高算法的执行效率。2.数据稀疏性问题。通过分析Web日志信息,将一些隐性信息转化为显性信息,可以解决此类问题的产生。
二、算法的整体框架
该算法首先采用web日志和数据库记录的方法,将用户的行为记录下来,并将这些隐性的用户行为转化为显性的用户对项目评价;然后采用改进后的相似度计算方法计算用户之间的相似度;接着对用户进行聚类,将用户按照他们的行为自动地划分为若干个用户聚类簇;最后根据用户对最近邻居的评分来预测其对目标项目的评分,进而产生推荐。
三、数据的预处理
本文采取了隐性提取用户信息的方法,通过分析电子商务网站服务器日志的方法去寻找用户的兴趣所在。一个用户对商品(或项目)的兴趣度可以体现在以下几个方面:用户是否对对商品和项目进行显性的评分;用户是否购买或收藏过某商品或项目,购买的数目;用户是否将一个商品或项目从自己的收藏列表中移除;用户对某商品或项目的点击次数;用户在某商品或项目的页面上停留的时间。
以上提到的各个因素都可以以web日志或数据库的形式保存。用户对商品的评分值就可以根据上面的几个因素来设定。如公式1.1所示,i表??用户编号;j表示商品或项目编号;表示用户i对商品j的隐性评分值;
表示用户i对商品j的显性评分值;表示用户i购买商品j的数目;表示用户i是否将商品j添加到收藏,添加为1,否则为0;表示用户i对商品j的点击次数;表示用户i在商品j的页面上停留的时间。隐性评分的计算公式如下:
其中,公式1.1中的是线性权重系数,它的大小可以通过经验来人为地确定。比如说用户显性评分的重要性一定要高于其他的权重值,而相比之下的值应该是最小的。第二种确定权重系数的方法就是通过统计的方法,利用线性回归来计算出 的具体的值。
通过上面的数据的预处理方法,我们就可以将隐性的用户行为转化为显性的用户对商品的评价。这样我们就可以得到用户-项目评价矩阵,该矩阵就是聚类分析算法的输入。
四、离线聚类过程
聚类过程的输入就是上一节得到的用户-项目评价矩阵,通过这一矩阵,使用相似度计算方法,既可以计算出用户之间的相似度,将这些计算结果用矩阵表示,即得到了用户相似度矩阵。接着我们采用4基于K-Means的用户行为聚类算法将用户进行聚类。
算法大致描述如下:使用改进后的相似度计算方法计算两两用户之间的相似度,得到相似度矩阵;采用聚类初始中心选取算法选取K个用户样本点形成K个聚类,每个聚类中只有一个用户样本点,其评分向量作为初始的聚类中心;计算其他每个用户样本点与各个聚类中心的相似性,将加入到与其最相似的聚类 中,并调整 的聚类中心,以 中与其他所有样本点距离和最近的点作为新的中心量;聚类终止条件:经过第C步的调整后,比较各个聚类中心是否与上一次聚类一致;或者调整前后,两个聚类中心的误差不超过一定的阈值。如果满足聚类终止条件,则聚类结束,否则回到C继续。最后得到聚类簇 。
五、最近邻居用户的查找
由聚类的性质可知,目标用户的最近邻居大部分都在与它同属于一个聚类簇中,因此不需要在整个用户空间上查找目标用户的最近邻居。所以,基于项目聚类的方法可以大大提高在线的最近邻居查找速度,满足推荐系统的实时性要求。
当用户U登陆以后,个性化推荐系统就会启动一个后台进程,来查找当前用户U的N个邻居用户,查找算法的大致描述如下:在数据库中查找用户U的所属的聚类簇这一字段,如果这一字段为空,则运行步骤B;如果对应的字段为i,及用户U属于聚类簇,运行步骤C;计算用户U与每一个聚类中心的相似度,找到相似度最小时对应的聚类簇,记做,运行步骤C;计算中每一个用户样本点与用户U的相似度,取相似度值最大
您可能关注的文档
最近下载
- 第15章量子物理-效应.pptx VIP
- 精品解析:浙江省杭州市余杭区2024-2025学年八年级10月月考语文试题(原卷版).docx VIP
- 镧热还原法年产35吨稀土金属钐的工艺设计.docx VIP
- 镧热还原法年产25吨稀土金属钐的工艺设计.docx VIP
- 2024年江西省南昌市保安员上岗资格证考试题库及答案(真题) .pdf VIP
- 2025年北师大版一年级数学上册月考试卷含答案.doc VIP
- 劳动教案(全册)五年级上册——人民出版社(表格式).pdf VIP
- 2025年部编版七年级 语文(上下全册)字词拼音及解释 .pdf VIP
- 安全标识中英文可直接打印.doc VIP
- 退役士兵驾驶技能培训服务投标方案(技术标).pdf VIP
文档评论(0)