常用推荐算法简介.docxVIP

下载本文档

0
0
约6.24千字
约 8页
2019-09-23 发布于湖北
举报
版权申诉

常用推荐算法简介.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

1. 前言随着互联网技术和社会化网络的发展，每天有大量包括博客，图片，视频，微博等等的信息发布到网上。传统的搜索技术已经不能满足用户对信息发现的需求，原因有多种，可能是用户很难用合适的关键词来描述自己的需求，也可能用户需要更加符合他们兴趣和喜好的结果，又或是用户无法对自己未知而又可能感兴趣的信息做出描述。推荐引擎的出现，可以帮用户获取更丰富，更符合个人口味和更加有意义的信息。个性化推荐根据用户兴趣和行为特点，向用户推荐所需的信息或商品，帮助用户在海量信息中快速发现真正所需的商品，提高用户黏性，促进信息点击和商品销售。推荐系统是基于海量数据挖掘分析的商业智能平台，推荐主要基于以下信息： l热点信息或商品 l用户信息，如性别、年龄、职业、收入以及所在城市等等 l用户历史浏览或行为记录 l社会化关系 2. 个性化推荐算法 2.1. 基于人口统计学的推荐（同类人喜欢什么就推荐什么）基于人口统计学的推荐机制（Demographic-based Recommendation）是一种最易于实现的推荐方法，它只是简单的根据系统用户的基本信息发现用户的相关程度，然后将相似用户喜爱的其他物品推荐给当前用户。首先，系统对每个用户都有一个用户?Profile?的建模，其中包括用户的基本信息，例如用户的年龄，性别等等；然后，系统会根据用户的?Profile?计算用户的相似度，可以看到用户?A?的?Profile?和用户?C?一样，那么系统会认为用户?A?和?C?是相似用户，在推荐引擎中，可以称他们是“邻居”；最后，基于“邻居”用户群的喜好推荐给当前用户一些物品。这种基于人口统计学的推荐机制的好处在于： l因为不使用当前用户对物品的喜好历史数据，所以对于新用户来讲没有“冷启动（Cold Start）”的问题。 l这个方法不依赖于物品本身的数据，所以这个方法在不同物品的领域都可以使用，它是领域独立的（domain-independent）。然后，这个方法的缺点和问题就在于，这种基于用户的基本信息对用户进行分类的方法过于粗糙，尤其是对品味要求较高的领域，比如图书，电影和音乐等领域，无法得到很好的推荐效果。另外一个局限是，这个方法可能涉及到一些与信息发现问题本身无关却比较敏感的信息，比如用户的年龄等，这些用户信息不是很好获取。 2.2. 基于内容的推荐（用户喜欢什么，就推荐相同类型的）基于内容的推荐是在推荐引擎出现之初应用最为广泛的推荐机制，它的核心思想是根据推荐物品或内容的元数据，发现物品或者内容的相关性，然后基于用户以往的喜好记录，推荐给用户相似的物品。这种推荐系统多用于一些资讯类的应用上，针对文章本身抽取一些tag作为该文章的关键词，继而可以通过这些tag来评价两篇文章的相似度。这种推荐系统的优点在于： l易于实现，不需要用户数据因此不存在稀疏性和冷启动问题。 l基于物品本身特征推荐，因此不存在过度推荐热门的问题。然而，缺点在于抽取的特征既要保证准确性又要具有一定的实际意义，否则很难保证推荐结果的相关性。豆瓣网采用人工维护tag的策略，依靠用户去维护内容的tag的准确性。 2.3. 基于关联规则的推荐（用户喜欢A，A和B有紧密联系，就推荐B）基于关联规则的推荐更常见于电子商务系统中，并且也被证明行之有效。其实际的意义为购买了一些物品的用户更倾向于购买另一些物品。基于关联规则的推荐系统的首要目标是挖掘出关联规则，也就是那些同时被很多用户购买的物品集合，这些集合内的物品可以相互进行推荐。目前关联规则挖掘算法主要从Apriori和FP-Growth两个算法发展演变而来。基于关联规则的推荐系统一般转化率较高，因为当用户已经购买了频繁集合中的若干项目后，购买该频繁集合中其他项目的可能性更高。该机制的缺点在于： l计算量较大，但是可以离线计算，因此影响不大。 l由于采用用户数据，不可避免的存在冷启动和稀疏性问题。 l存在热门项目容易被过度推荐的问题。 2.4. 基于协同过滤的推荐协同过滤是一种在推荐系统中广泛采用的推荐方法。这种算法基于一个“物以类聚，人以群分”的假设，喜欢相同物品的用户更有可能具有相同的兴趣。基于协同过滤的推荐系统一般应用于有用户评分的系统之中，通过分数去刻画用户对于物品的喜好。协同过滤被视为利用集体智慧的典范，不需要对项目进行特殊处理，而是通过用户建立物品与物品之间的联系。目前，协同过滤推荐系统被分化为两种类型：基于用户(User-based)的推荐和基于物品(Item-based)的推荐。 2.4.1. 基于用户的推荐基于用户的协同过滤推荐的基本原理是，根据所有用户对物品或者信息的偏好（评分），发现与当前用户口味和偏好相似的“邻居”用户群，在一般的应用中是采用计算“K-Nearest Neighboor”的算法；