推荐系统最基础的简介.pptxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
主要内容什么是推荐系统(背景等)?推荐系统目前主要有哪些方法?推荐系统在进行推荐的时候每一步是怎么进行的?推荐系统的评价指标有哪些?推荐系统概要背景: 互联网技术迅猛发展→信息爆炸→信息超载(信息利用率降低)什么是推荐系统? 通过建立用户与信息产品之间二元关系,利用已有的选择过程或相似性关系挖掘每个用户潜在感兴趣的对象,进而进行个性化推荐,其本质就是信息过滤。一个完整的推荐系统由3个部分组成:收集用户信息的行为记录模块,分析用户喜好的模型分析模块和推荐算法模块。根据推荐算法的不同,推荐系统可以分为以下几类: ·协同过滤(collaborative filtering)系统; ·基于内容(content-based)的推荐系统; ·基于网络结构(network-based)的推荐系统; ·混合(hybrid)推荐系统;协同过滤系统·核心思想: 1.利用用户的历史信息计算用户之间的相似性; 2.利用与目标用户相似性较高的邻居对其他产品的评价来预测目标用户对特定产品的喜好程度。系统根据这一喜好程度来对目标用户进行推荐·分类: ·基于记忆(memory-based)的算法 ·基于模型(model-based)的算法 基于记忆的算法计算用户评分: 设C=为用户集合,S=为所有的产品集合。 设 为用户c对产品s的打分(在协同过滤算法中,用户c对产品s的打分通过其他用户对s的打分计算而得到。) 设 为与用户c相似度比高的用户集 第一种:直接计算邻居打分的平均值 第二种:加权平均 (用户之间越相似,则用于预测的权重越大) 基于记忆的算法 第三种:考虑用户评判的尺度不同 k=1/ ,sim(i,j)表示用户之间的相似度。 用户c的平均打分 定义为 表示该用户打过的所有分的平均值。 基于记忆的算法·用户之间相似度的计算: ·用户x与y之间的Pearson相关性: 用户x和y共同打过分的产品集合为: ·夹角余弦(用户x与y都用m维向量表示) 优缺点·优点 1.具有推荐新信息的能力,可以发现用户潜在但自己尚未察觉的兴趣爱好。 2.能够推荐艺术品、音乐、电影等难以进行内容分析的产品。·问题 1.冷启动问题(新产品、新用户) 2.打分稀疏性问题 3.算法可扩展性 基于内容的推荐系统核心思想: 分别对用户和产品建立配置文件,通过分析已经购买(或浏览)过的内容,建立或更新用户的配置文件。系统可以比较用户与产品配置文件的相似度,并直接向用户推荐与其配置文件最相似的产品。基于内容的推荐算法的根本在于信息获取和信息过滤。(用户的配置文件构建与更新是最为核心的部分之一)基于内容的算法信息获取(TF-IDF): 与这个关键词在文件中出现数的逆 定义为 设Content(s)为产品s的配置文件,UserProfile(c)为用户c的配置文件, UserProfile(c)可以用向量 表示,其中每个分量 表示关键词 对用户c的重要性在基于内容的系统中, 被定义为: 优缺点优点: 1.可以处理冷启动问题; 2.不受打分稀疏性问题的约束; 3.能推荐新出现的产品和非流行的产品;·问题: 1.受到信息获取技术的约束; 2.难以从根本上解决冷启动问题。 基于网络结构的推荐系统核心思想: 不考虑用户和产品的内容特性,而仅仅把他们看作抽象的节点,所有算法利用的信息都隐藏在用户和产品的选择关系之中。考虑一个由m个用户和n个产品构成的推荐系统,其中如果用户i选择过产品j,就在i和j之间连接一条边 、 .由此,这个系统可以用一个具有m+n个节点的二部分图表示.基于二部分图资源分配的推荐算法对于任意目标用户i,推荐算法的目的是把所有i没有选择过的产品按照i喜欢的程度进行排序,并且把排名靠前的那些产品推荐给i。对于有m个用户和n个产品的一般的推荐系统,如果用 表示产品j愿意分配给i的资源配额,可得到其一般表达式: 其中kj表示产品j的度(被多少用户选择过),kl表示用户l的度(该用户选择过多少商品) 最终的资源分配矢量 为一 个n维的0/1矢量,给定的目标用户选择过的产品上的初始资源设为1,其他设为0; W为n*n阶的矩阵。 按照中对应元素的大小进行排序,值越大说明用户越喜欢该商品。 推荐系统的评价指标准确度(被绝大多数推荐系统采用)推荐列表的流行性和多样性覆盖率新鲜性和意外性用户的满意度准确度评价指标预测准确度分类准确度排序准确度预测打分关联距离标准化指标半衰期效用指标预测准确度预测准确度的一个经典度量方法就是度量系统的预测打分和用户的实际打分的平均绝对误差MAE其中c为系统中用户i打分产品的个数,

文档评论(0)

118books + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档