【精品】ppt课件 数据挖掘之推荐算法入门(阿里大数据竞赛参赛经历).ppt

【精品】ppt课件 数据挖掘之推荐算法入门(阿里大数据竞赛参赛经历).ppt

  1. 1、本文档共34页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
算法2:逻辑回归(Logistic regression) 组成1:回归 回归是对已知公式的未知参数进行估计。 如已知公式是y = a*x + b,未知参数是 a 和 b。我们现在有很多真实的(x,y)数据(训练样本),回归就是利用这些数据对 a 和 b 的取值去自动估计。 推荐算法 算法2:逻辑回归(Logistic regression) 组成2:线性回归 如鞋子定价与鞋子销量的问题。y = a*x + b,x是价钱,y是销售量。假设它们满足线性关系,线性回归即根据往年数据找出最佳的a, b取值,使 y = a * x + b 在所有样本集上误差最小。 推荐算法 线性回归示例 算法2:逻辑回归(Logistic regression) 组成2:线性回归 如鞋子定价与鞋子销量的问题。y = a*x + b,x是价钱,y是销售量。假设它们满足线性关系,线性回归即根据往年数据找出最佳的a, b取值,使 y = a * x + b 在所有样本集上误差最小。 一元变量关系比较直观,但若是多元就难以直观的看出来了。比如说除了鞋子的价格外,鞋子的质量,广告的投入,店铺所在街区的人流量都会影响销量,我们想得到这样的公式:sell = a*x + b*y + c*z + d*γ + e。这个时候画图就画不出来了,规律也十分难找,这时就得交给线性回归程序去完成。 推荐算法 算法2:逻辑回归(Logistic regression) 组成3:Logsitic方程 上面提到的 sell 计算出来是一个数值,但我们需要的是一个[0, 1],类似概率的值,于是引入了 Logistic 方程,来做归一化。 所以逻辑回归就是一个被Logistic方程归一化后的线性回归。 推荐算法 线性回归 逻辑回归 算法2:逻辑回归(Logistic regression) 实现:使用算法库 R语言、Python等都有逻辑回归的算法库,使用方便。最重要的还是要提取相关特征,逻辑回归的效果直接取决于特征的选取(当然,追求更好的效果就需要去优化算法的实现)。 推荐算法 逻辑回归代码示例 算法3:协同过滤(Collaborative Filtering) 基于用户的协同过滤算法是推荐系统中最古老的算法。可以不夸张地说,这个算法的诞生标志了推荐系统的诞生。 在个性化推荐系统中,当用户A需要个性化推荐时,可以先找到和他有相似兴趣的其他用户,然后把那些相似兴趣用户喜欢的、而用户A没有听说过的物品推荐给A。这种方法称为基于用户的协同过滤算法。 基于用户的协同过滤算法主要包括两个步骤。 找到和目标用户兴趣相似的用户集合。 将这个集合中用户喜欢的,且目标用户没有听说过的物品推荐给目标用户。 相对应的,还有基于物品的协同过滤算法,比如给喜欢《射雕英雄传》的用户推荐《天龙八部》,因为这两部作品都是武侠小说,且作者都是金庸。 推荐算法 算法3:协同过滤(Collaborative Filtering) 协同过滤算法的核心是计算相似度,以基于物品的协同过滤为例: 推荐算法 左边每一行代表一个用户感兴趣的物品集合 中间是某用户感兴趣物品的相似矩阵 右侧是所有用户感兴趣物品相似矩阵相加的结果 最后进行归一化就可得到一个[0,1]的物品相似度矩阵 算法3:协同过滤(Collaborative Filtering) 推荐算法 基于用户的协同过滤(User CF) (用户A和用户C都喜欢物品A、C) 基于物品的协同过滤(Item CF) (喜欢物品A的人也喜欢物品C) 基于物品的协同过滤推荐示例 给用户推荐《算法导论》,是因为这本书和《C++ Primer中文版》和《编程之美》都相似,相似度分别为 0.4 和 0.5。 而用户对《C++ Primer中文版》的兴趣度是1.3,对《编程之美》的兴趣度是0.9,那么用户对《算法导论》的兴趣度就是1.3 ×0.4 + 0.9×0.5 = 0.97。 逻辑回归与协同过滤的比较 最主要的一个区别是应用场景不同:逻辑回归针对的是已有交互的物品,而协同过滤则主要针对没有交互过的物品。 如购物网站的推荐系统, 逻辑回归可以推荐给用户,其浏览过且较有可能购买的商品; 协同过滤则可以推荐给用户,其未浏览过但可能感兴趣的商品。 推荐算法 亚马逊的图书推荐主要使用了协同过滤。 其他推荐算法: 随机森林(Logistic regression) 支持向量机SVM 神经网络

您可能关注的文档

文档评论(0)

zhuliyan1314 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档