推荐系统技术重点.pptx

下载文档 降价啦

8
0
约2.94千字
约 33页
2017-04-08 发布于湖北
举报
版权申诉
保障服务

推荐系统技术重点.pptx

1、本文档共33页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

推荐系统作者：苗原联系方式：xhmiaoyuan@163.com 目标推荐系统的意义基于内容推荐协同过滤推荐频繁模式挖掘标签系统推荐结果评价推荐系统的意义随着信息技术的迅速发展和信息内容的日益增长，“信息过载”问题愈来愈严重，愈发带来很大的信息负担。施拉姆信息选择公式，人们对媒体的注意或选择的可能性（然率）与它能够提供的报偿（价值）程度成正比，与人们获得它的代价（费力）程度成反比。人们愿意用最小的代价获取价值最大的新闻信息。推荐系统的意义在互联网时代由于网络技术能以很低的成本让人们去获得更多的信息和选择，事实上，每一个人的品味和偏好都并非和主流人群完全一致，当我们发现得越多，我们就越能体会到我们需要更多的选择。如果说搜索引擎体现着马太效应的话，那么长尾理论则阐述了推荐系统发挥的价值。推荐系统的意义基于内容推荐信息来源：物品基本信息用户的基本信息用户和物品之间的信息基于内容推荐（人口统计学的推荐）基于人口统计学的推荐思想：根据系统用户的基本信息发现用户的相关程度，然后将相似用户喜爱的其他物品推荐给当前用户基于内容推荐（人口统计学的推荐） A用户基本信息：年龄25-30岁，性别：女年龄分：0-10 10-25 25-30 30-35 35-60 60- B用户基本信息：年龄30-35岁，性别：男 C用户基本信息：年龄25-30岁，性别：女性别：男女 a(3,1) b(4,0) c(3,1) 基于内容推荐（人口统计学的推荐）余弦相似性基于内容推荐（人口统计学的推荐）优缺点：（1）由于不使用当前用户对物品的喜好历史数据，所以对于新用户来讲没有“冷启动”的问题；（2）可能涉及到一些与信息发现问题本身无关却比较敏感的信息，比如用户的年龄等，这些用户信息不是很好获取；基于内容推荐（物品内容推荐）系统首先对物品的属性进行建模，图中用类型作为属性。通过相似度计算，发现电影A和C相似度较高，因为他们都属于爱情类。系统还会发现用户A喜欢电影A，由此得出结论，用户A很可能对电影C也感兴趣。于是将电影 C推荐给A。基于内容推荐（物品内容推荐）物品相似度计算方法：基于物品基本信息基于语义特征基于内容推荐（物品内容推荐） TF-IDF算法：自动提取关键词如果某个词比较少见，但是它在这篇文章中多次出现，那么它很可能就反映了这篇文章的特性，正是我们所需要的关键词。基于内容推荐（物品内容推荐）优缺点：能很好的建模用户的口味，能提供更加精确的推荐；物品相似度的分析仅仅依赖于物品本身的特征，这里没有考虑人对物品的态度；因为需要基于用户以往的喜好历史做出推荐，所以对于新用户有“冷启动”的问题；基于协同过滤推荐基于用户的协同过滤（user-based CF）基于商品的协同过滤（item-based CF）信息来源：用户和物品之间的信息基于协同过滤推荐（ user-based CF ）思想：根据所有用户对物品或者信息的偏好，发现与当前用户口味和偏好相似的“邻居”用户群，为当前户进行推荐；基于协同过滤推荐（ item-based CF ）思想：使用所有用户对物品或者信息的偏好，发现物品和物品之间的相似度，然后根据用户的历史偏好信息，将类似的物品推荐给用户；基于协同过滤推荐（ item-based CF ）考虑到大多数电商网站多人多热门商品要远少于人数，一般会选择基于物品的协同过滤算法。基于协同过滤推荐基于协同过滤推荐优缺点：不需要考虑物品内容和人口属性，需要历史记录。由于需要用户的历史偏好，所以存在新用户的“冷启动”问题；频繁模式挖掘关联规则挖掘的典型案例：购物篮问题在商场中拥有大量的商品（项目），如：牛奶、面包等，客户将所购买的商品放入到自己的购物篮中。频繁模式挖掘（支持度与置信度）关联规则的支持度如果交易数据库D中s的交易包含A∪B，则称规则A =B在事务集D上的支持度为s。Support(A=B)=P(A∪B) 关联规则的置信度如果交易数据库D中，包含A的交易中有c(%)的交易同时也包含B，称规则的置信度为c。（条件概率）Confidence (A =B)=P(B|A) =support({A} = {B})/support({A})（注：这里的U是指在交易中同时出现{A}和{B}）频繁模式挖掘查找所有的规则 A=C 具有最小支持度和可信度支持度 , s , 一次交易中包含 {A 、 C} 的可能性置信度 , c, 包含 {A} 的交易中也包含 C 的条件概率频繁模式挖掘 rule A=C : ? support = support({ A } ? { C }) = 50%