- 1、本文档共17页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
4.1 大数据在互联网领域的应用;推荐系统概述
推荐系统:通过分析用户的历史数据来了解用户的需求和兴趣,从而将用户感兴趣的信息、物品等主动推荐给用户。
推荐系统同搜索引擎有区别:
推荐系统是通过研究用户的兴趣偏好、进行个性化计算,帮助用户从海量信息中发掘自己潜在的需求。(PUSH)
搜索引擎以用户有明确的需求为前提,将需求转化为相应的关键词进行搜索。(PULL)
;长尾理论:美国《连线》杂志主编Chris Anderson于2004年推出,用来描述以亚马逊为代表的电子商务网站的商业和经济模式。
传统零售点由于摆货场地限制,一般摆放热门商品(即热门推荐),遵循二八定律(80%的利润来源于20%的热门商品)。
电子商务网站销售的种类繁多,绝大多数商品都不热门。热门商品往往代表了用户的普遍需求,而长尾商品则代表了用户的个性化需求。推荐系统通过发掘用??的行为记录,找到用户的个性化需求,从而准确地将长尾商品准确地推荐给需要它的用户,实现用户和商家的双赢。互联网使得99%的商品都有机会进行销售,市场曲线中那条长长的尾部成为可以寄予厚望的、新的利润增长点。;推荐方法
专家推荐:本质上是人工推荐,其他推荐算法结果的补充。
基于统计的推荐:基于统计信息的推荐,如热门推荐,但对用户个性化偏好描述能力较弱。
基于内容的推荐:通过机器学习的方法去描述内容的特征,并基于内容的特征来发现与之相似的内容。关注物品本身的特征,通过物品自身的特征来找到相似的物品。
协同过滤推荐:利用用户的历史信息计算用户之间的距离,利用目标用户的最近邻居用户对商品的评价信息来预测目标用户对特定商品的喜好程度,然后对目标用户进行推荐。关注用户和物品间的联系,与物品自身特征没有太多关系。
混合推荐:单一的推荐算法往往无法取得良好的推荐效果,多数推荐系统会有机结合多种推荐算法。;推荐系统模型
;推荐系统的应用
推荐系统分为离线计算部分(较高准确度)/实时计算部分(快速响应,但相对较低的准确度)
亚马逊:推荐系统的鼻祖,渗透到网站的各个角落,实现了多个推荐场景,向用户实时推荐可能感兴趣、有潜在购买可能性的商品。
虾米音乐:根据用户的音乐收藏记录来分析用户的音乐偏好,从而进行推荐。一般是基于内容的推荐为主。
;协同过滤
协同过滤分为基于用户的协同过滤与基于物品的协同过滤。
基于用户的协同过滤(UserCF)
该算法于1992年被提出,符合人们对于“趣味相投”的认知,即兴趣相似的用户往往有相同的物品喜好。
UserCF算法的实现主要包括两个步骤:
找到和目标用户兴趣相似的用户集合。
找到该集合中的用户所喜欢的、
且目标用户没有听说过的物品
推荐给目标用户。
;实现UserCF算法的关键步骤是计算用户与用户之间的兴趣相似度。
目前较多使用的相似度算法有:
泊松相关系数(Person Correlation Coefficient)
余弦相似度(Cosine-based Similarity)
调整余弦相似度(Adjusted Cosine Similarity)
给定用户u和用户v,令N(u)表示用户u感兴趣的物品集合,令N(v)为用户v感兴趣的物品集合,则使用余弦相似度进行计算用户相似度的公式为:
得到用户间的相似度后,再使用如下公式来度量用户u对物品i的兴趣程度Pui:
;基于物品的协同过滤(ItemCF)
Amzon和Netflix的推荐系统的基础是ItemCF算法。
ItemCF算法主要通过分析用户的行为记录来计算物品之间的相似度,给目标用户推荐那些和他们之前喜欢的物品相似的物品。
ItemCF算法与UserCF算法类似,计算也分为两步:
计算物品之间的相似度;
根据物品的相似度和用户的
历史行为,给用户生成推荐列表。
;ItemCF算法通过建立用户到物品倒排表(每个用户喜欢的物品的列表)来计算物品相似度。
;计算物品的相似度
ItemCF计算的是物品相似度,再使用如下公式来度量用户u对物品j的兴趣程度Puj(与UserCF类似):
;UserCF算法和ItemCF算法对比
UserCF算法和ItemCF算法的思想、计算过程都相似,两者最主要的区别:
UserCF算法推荐的是那些和目标用户有共同兴趣爱好的其他用户所喜欢的物品;ItemCF算法推荐的是那些和目标用户之前喜欢的物品类似的其他物品。
UserCF算法的推荐更偏向社会化,而ItemCF算法的推荐更偏向于个性化。;协同过滤实践
采用ItemCF算法,使用Python语言实现一个简易的电影推荐系统。
实验数据:MovieLens 100k数据集包括1000名用户对1700部电影的评分记录,一共10万条电影评分记录。
下载网址:/datasets/movielens
步骤包括:
数据准备
计算相似矩阵
计算推荐结果
展示推荐结
您可能关注的文档
- 大学英语综合教程第六单元.ppt
- 大学英语老师要求的课前演讲.ppt
- 大学英语考前辅导.ppt
- 大学英语议论文范文.ppt
- 大学英语语法状语从句.ppt
- 大学英语英国历史文化第一单元TheBirthofaNation.ppt
- 大学英语语法被动态.pptx
- 大学英语读写2第二单元ThestandardforOlympicExcellence.ppt
- 大学英语读写单词讲解示范.ppt
- 大学英语课件HealthandMedicalcare.ppt
- 金融产品2024年投资策略报告:积极适应市场风格,行为金融+机器学习新发现.pdf
- 交运物流2024年度投资策略:转型十字路,峰回路又转(2023120317).pdf
- 建材行业2024年投资策略报告:板块持续磨底,重点关注需求侧复苏.pdf
- 宏观2024年投资策略报告:复苏之路.pdf
- 光储氢2024年投资策略报告:复苏在春季,需求的非线性增长曙光初现.pdf
- 公用环保2024年投资策略报告:电改持续推进,火电盈利稳定性有望进一步提升.pdf
- 房地产2024年投资策略报告:聚焦三大工程,静待需求修复.pdf
- 保险2024年投资策略报告:资产负债匹配穿越利率周期.pdf
- 政策研究2024年宏观政策与经济形势展望:共识与分歧.pdf
- 有色金属行业2024年投资策略报告:新旧需求共振&工业原料受限,构筑有色大海星辰.pdf
最近下载
- 4-1 中化泉州石化 3 万吨年干气脱硫制二甲基亚砜项目设备设计说明书(含塔设备计算说明、换热器设计结果、设备一览表).pdf
- 工程造价_横湖桥商业楼土建工程量清单报价.docx VIP
- 浙江师范大学行知学院 学生手册.pdf
- 2025年辽宁沈阳市文体旅产业发展集团有限公司招聘笔试参考题库附带答案详解.pdf
- 川崎病患儿的护理课件.pptx VIP
- 2024年东莞市东华高级中学自主招生数学试卷附答案解析 .pdf
- 中医馆客服知识培训课件.pptx
- 辽宁沈阳市文体旅产业发展有限公司招聘笔试题库2025.pdf
- 全国公开课大赛一等奖小学一年级下册数学人教版《七巧板》课件.pptx
- 辽宁沈阳市文体旅产业发展集团有限公司招聘笔试题库2025.pdf
文档评论(0)