- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
推荐系统原理及问题分析
参考资料
1.维基百科:协同过滤
2.推荐系统调研报告及综述-----张永
3.百度搜索
4./865
5.google搜索
什么是推荐系统
推荐系统属于资讯过滤的一种应用。推荐系统能够将可能受喜好的资讯或实物(例如:电影、电视节目、音乐、书籍、新闻、图片、网页)推荐给使用者。
推荐系统的应用(商业应用系统)
Netflix 在线视频推荐系统;
Amazon 网络购物商城;
如淘宝、京东商城、美丽说、豆瓣、百度....;
Amazon 发布的数据显示,亚马逊网络书城的推荐算法为亚马逊每年贡献近三十个百分点的创收。
推荐系统的构成
输入
用户
物品
评价
输出
推荐列表
推荐理由
输入(物品Item)
物品(Item):item profile,描述一个item的性质;
比如图书推荐:可能包括图书所属类别、作者、页数、出版时间、出版商等;
比如新闻推荐:新闻的文本内容、关键词、时间等;
电影推荐:片名、时长、上映时间、主演、剧情描述等;
输入(用户user)
用来描述一个用户的“个性”,也就是 User Profile;
根据不同的应用场景以及不同的具体算法,User Profile 可能有不同的表示方式;
比如该用户的性别、年龄、年收入、活跃时间、所在城市;
但是往往user profile需要含有和item相关性较强的一些属性,比如在什么时间购买了或者浏览了什么物品;
输入(评价review)
评价是联系一个User与一个Item的纽带;
最简单的Review是User对某一Item的打分(Rate),表示了该 User 对该 Item 的喜好程度;
主要分为两类:显示的用户反馈(比如对商品的评价),隐式用户反馈(比如用户浏览网页查看了那些物品的信息以及浏览时间的长短)
输出
推荐列表:按照一定的优先级列出用户可能喜欢的物品;
推荐理由:比如购买了某商品的用户有 90%也购买了该商品;
典型的推荐方法分类 -----(依据推荐方法的不同)
也就是考虑如何发现数据的相关性:大部分的推荐系统其工作原理还是基于物品或用户的相似性进行推荐:
基于人口统计学的推荐(Demographic-based Recommendation)
基于内容的推荐(Content-Based Recommendation)
基于协同过滤的推荐 (Collaborative Filtering-Based Recommendation)
混合型推荐系统 (Hybrid Recommendation)
基于协同过滤的推荐(研究的较多)
基于用户的推荐(User-based Recommendation)
于物品的推荐(Item-based Recommendation)
基于模型的推荐(Model-based Recommendation)
基于用户的推荐
基本假设:用户可能会喜欢和他具有相似爱好的用户所喜欢的物 品;
这里的“相似用户”,不是用 User Profile 计算出来的,而是用用户的打分历史记录计算出来的。这里的基本想法是,具有相似偏好的用户,他们在所有 Item 上的打分情况(哪些打了分,哪些没打分;打分的分值是多少等)也是相似的。
缺点:当系统用户数量过多时,计算relevant user时间太长;
当新用户加入系统的时候,他的打分记录太少,很难计算 相似的user;
基于物品的推荐
产生:鉴于 User-Based 协同过滤方法随着用户数增加,计算时间显著增长,有人提出了Item-based算法;
应用:目前是亚马逊网络商城推荐系统的底层核心算法;
假设:用户可能会喜欢与他之前曾经喜欢的物品相似的物品;
与 Content-Based 方法不同的是,这里的“相似物品”不是通过 Item Profile 来计算的,而是通过物品被打分的历史记录来计算的。
基于物品的推荐
对于一个 User 行向量中的 0 值(用户未购买的物品),我们需要去预测该用户在该物品(记为 I)上可能的打分,预测方法是,考虑所有该用户已经打过分的 Item,以它们与 I 的相似度为权重,对它们的分值进行加权平均,作为对 I 的预测打分,最终以预测打分的高低为顺序给出推荐列表。
优点:是计算简单,容易实现实时响应;
可解释性好,用户可能不了解其他人的购物情况,但是对自己的购物历史总是很清楚的;
缺点:精确度较低;冷启动问题;
推荐系统面临的问题
1.数据稀疏性 Data Sparsity
2.同义词问题 Synonymy
3.Gray Sheep 问题
4.Shilling Attack
数据稀疏性
主要表现:
Neighbour Transit
文档评论(0)