REHIS基于层次的项目相似性的高效推荐算法.pptVIP

下载本文档

1
0
约3.46千字
约 16页
2018-06-18 发布于福建
举报
版权申诉

REHIS基于层次的项目相似性的高效推荐算法.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

REHIS基于层次的项目相似性的高效推荐算法

REHIS：基于层次项目相似性的高效推荐算法论文作者：孙远帅报告人：李培 * * 1 2 3 一般推荐算法推荐系统概念本文工作主要内容 * * 1 推荐系统概念 * * 2 一般推荐算法基于内容的推荐协同推荐混合推荐 * * 而本文的工作主要集中于协同过滤，协同过滤的主要思想就是k近邻，即在用户集合中查找与目标用户最相似的K个用户来进行推荐，其过程如下：共同评分的item Top K 最相似用户最喜欢的item 推荐给目标用户 3 本文工作 * * 1. Cosine距离 2. Pearson相关系数其中，Sxy是用户x和用户y共同评分的项目 3 本文工作 * * 数据规模较大时，其比较慢！为此我们引入倒排索引，构建一个用户项目的倒排索引，来方便查找用户的共现项目。 3 本文工作 * * 虽然这样有效的减少了共现项目的查找时间，但其并没有减少计算量，是否能减少计算量呢？ * * 为此我们提出了TOPKS算法，利用相似度的分子是累加和的形式，算法的主要过程如下：（以Cosine距离为例） 3 本文工作 * * 计算部分相似度排序得到topk集 …… 估算最大值删除不必要用户 3 本文工作不同规模用户数量上的比较实验 * * 3 本文工作不同稀疏度对近邻计算的影响 * * * * 3 本文工作 * * 通过Topks算法我们有效地提高了协同过滤算法的效率，但是算法的效果不能令人满意。我们该如何改进呢？协同过滤算法的效果依赖于一个准确的相似度度量，传统的cosine距离、pearson系数等受限因素太多，难以准确度量相似度。那我们该如何去度量相似度呢？ 3 本文工作 * * 为此本文提出利用项目间的层次间关系，构建出一个标签和项目之间的层次结构图，而后引入语义网络中一种基于本体的概念相似度计算方法来计算相似度。为了提高协同过滤算法的相似度度量的准确度，我们就需要引入更多的信息，而在推荐系统的用户数据上有很多用户自定义的标签，这些标签存在着一定的层次关系，并在一定程度上描述了项目的关键属性。计算父子节点之间距离通过找到两个节点的最短距离来求相似度 3 本文工作 * * 层次相似度的计算过程：构建出标签和项目之间的层次结构图 3 本文工作算法效果对比图 * * KNN扩展：引入倒排索引，加入Topks算法改进了KNN算法使得传统协同过滤算法处理数据的能力有所提升，有效的提高了算法的效率。基于层次项目相似性进行推荐：利用KNN算法和关联规则完成标签层次结构，而后提出基于标签层次结构计算项目相似度的方法，提高了推荐的准确度。 3 本文工作 * * * * 欢迎批评指正！论文作者：孙远帅邮箱：sys@stu.xmu.edu.cn 电话本次报告首先简单介绍推荐系统，然后介绍推荐系统使用的一般方法，最后说明本文的工作。首先我们通过一个例子来说明什么是推荐系统。这是我在当当网的切身体会。前段时间我在当当网上买了一本《机器学习》，购买之后，当当网当即就给我推荐了一些诸如《人工智能》之类的相关书籍。这就是推荐的一个典型应用。那么这些结果是怎么产生的呢，其实就是根据我购买《机器学习》这一行为来进行推荐的。一般都有哪些推荐算法呢，下面我介绍一下，推荐系统中一些常见的推荐算法。基于内容的推荐就是基于用户的历史数据来判断用户的兴趣偏向，从而产生推荐。协同过滤主要有两种：基于用户的协同过滤和基于项目的协同过滤。基于用户的协同过滤：基于品味最相似的用户数据来进行推荐基于项目的协同过滤：基于最相似项目的数据来进行推荐。而混合推荐主要就是以上二者的结合。首先从整个用户空间，根据与目标用户拥有的共同评分项目来查找相似用户，然后从相似用户空间中确定与目标用户最相似的k个用户，最后把找到的最相似用户最喜欢的item（目标用户没有尝试过），推荐给目标用户。那现在的一个问题是怎么确定相似的用户呢？如何评价用户之间的相似度呢？常见的有两种方法：cosine距离和Pearson相关系数。但是有个问题就是当数据规模增大时，用户数量和项目数量急剧增加，整个用户空间上搜索最近邻居非常耗时。那我们来分析一下其主要耗时的地方，公式分母都是用户向量自身的数据，不需要消耗太多的时间，而分子是匹配两个用户的共现项目，是需要搜索整个用户空间的，因而其是主要的耗时原因。我们较为关注前k个用户或前k个项目通过上述倒排索引找到用户的一个共现项目，由此可计算出用户的部分相似度，得到其topk个项目，然后对那些不在topk内的用户估算出其最大值，如果其比topk集内的用户小的话，我们就删除此用户，从而减少那些不必要计算的项目。通过此我们减少了计算量。那实验效果如何？ * 我们在不同