- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
刍议基于用户聚类协同过滤推荐算法
刍议基于用户聚类协同过滤推荐算法
引言:在电子商务推荐系统中,协同过滤推荐算法在个性化的推荐系统中得到广泛应用,随着其应用的深入,协同过滤推荐算法也存在着一些问题,如“冷启动”问题、“数据稀疏性”问题等,于是人们开始对协同过滤推荐算法不断的加以改进。本文就基于用户聚类的协同过滤推荐算法进行了浅显的探讨。
随着网络技术的发展,电子商务推荐系统已经成为很多企业进行广告宣传和商品销售的重要平台。在电子商务推荐系统中,协同过滤推荐算法在个性化的推荐系统中得到广泛应用。协同过滤推荐(Collaborative Filtering recommendation)是在信息过滤和信息系统中应用的一种技术。协同过滤推荐能对用户的兴趣进行分析,并在用户群中找到指定用户的类似兴趣用户,通过分析相似兴趣用户对某一信息的评价,从而形成系统对该指定用户对此信息的喜好程度预测。随着其应用的深入,协同过滤推荐算法也出现了一些问题,如“冷启动”问题、“数据稀疏性”等,于是基于用户聚类的协同过滤推荐算法开始逐渐得到应用[1]。
1.电子商务个性化推荐简述
随着我国电子商务的飞速发展,面对大量的信息资源,消费者不知道该如何选择。为了彻底解决这一问题,运营商提出了制作个性化推荐系统(Personalized recommendation system)[1]的设想。电子商务个性化推荐系统主要是使用电子商务网站,为用户提供商品的信息并提出购买意见,帮助客户选择商品或者信息。一般的个性化推荐系统主要有三个模块构成:行为记录模块、处理模块和推荐模块[2] 。行为记录模块用来记录用户的各种操作,例如收藏、购买、下载、评分等,然后对这些操作进行有效的汇总和处理。处理模块是个性化推荐系统的核心,它实现了对用户操作记录的分析,并采用不同算法建立起模型来描述用户的喜好档案。最后,通过推荐模块,形成适当的分析结果推荐给用户,其形式包括预测评分、购买建议、文本评价等。推荐方法是推荐系统的中心,直接决定了推荐系统的效果[3]。
2.传统协同过滤推荐算法存在的问题
协同过滤算法是个性化推荐中应用最广泛的一种方法。这种技术是基于邻居用户的兴趣爱好来对目标用户的兴趣爱好进行预测。通过统计技术,将与目标用户有相同兴趣的邻居用户寻找出来,进而根据目标用户的邻居用户的偏好形成推荐。该种算法,主要是由数据表示、形成邻居、产生推荐三个阶段构成。协同过滤推荐算法虽然具有一定的优势,但是也有鲜明的缺点,主要表现出“冷启动”问题和“数据稀疏性”问题[4]。首先,“数据稀疏性”问题是很多推荐技术面临的重要问题之一。稀疏性(Sparsity)主要是由于推荐系统中用户信息有限,用户评价或所购买的产品的数量在总数中所占的比例较小,使得某一项目的偏好矩阵中数据较为稀疏,这样找到相似用户就很不容易,使得系统的推荐性能表现很差。冷启动 (cold-start)问题主要表现为新项目问题和新用户问题。新项目问题就是没有人评价或购买过的某一项目,其相应推荐也没有,新用户问题就是没有购买或评价过任何产品的新用户得不到任何推荐。传统协同过滤推荐在单一内容项目推荐上具有一定的适用性,但是现实生活中,项目多内容个性推荐情况较多,其准确率较低。
3.基于用户聚类的协同过滤推荐算法
3.1用户聚类
用户聚类就是试图找到具有共同喜好的用户组,将用户聚集成不同的簇,同一簇内的用户具有较高的相似性,而不同簇中的用户则具有较低的相似性。通过对用户的聚类,可以发现群体用户的兴趣所在,以提高处理海量增长的数据集的效率。
根据用户的特征相似性,采用蚂蚁自组织聚类的思想对用户进行类聚。先从n个数据对象中设定聚类数目k和k个聚类的初始聚类中心,计算出用户与聚类中心的特征相似性[5],逐个将需聚类的用户样本按最小距离准则分配给K个聚类中心中的某一个聚类中心。计算各个聚类中心的新的向量值,求各聚类簇中所包含用户的均值向量。并以均值向量作为新的聚类中心。不断重复这一过程直到标准测度函数开始收敛为止,最后生成聚类簇。由于该算法能有效辨识用户之间的特征相似性,因此聚类结果较为合理。
3.2查找邻居用户
邻居用户的查找是在各个聚类簇中进行的,因此,首先,根据用户的基本特征数据,综合计算相似性,之后以聚类用户的基本特征数据和聚类用户对项目的评分数据,计算出目标用户与其余所有用户两两之间的综合相似性。其次,邻居用户的选取采用k均值算法来进行,通过用户之间综合相似性排序,选择相似性值最大的k个用户作为目标用户的邻居用户。
3.3预测目标用户项目评分并得出推荐
在得到邻居用户之后,可以根据邻居用户对项目的评分来预测目标用户对项目的评分。在对目标用户的预测评分过程中,其计算方法与传统协同过滤算法
原创力文档


文档评论(0)