- 1、本文档共17页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
4-1大数据在互联网领域的应用
4.1 大数据在互联网领域的应用;推荐系统概述
推荐系统:通过分析用户的历史数据来了解用户的需求和兴趣,从而将用户感兴趣的信息、物品等主动推荐给用户。
推荐系统同搜索引擎有区别:
推荐系统是通过研究用户的兴趣偏好、进行个性化计算,帮助用户从海量信息中发掘自己潜在的需求。(PUSH)
搜索引擎以用户有明确的需求为前提,将需求转化为相应的关键词进行搜索。(PULL)
;长尾理论:美国《连线》杂志主编Chris Anderson于2004年推出,用来描述以亚马逊为代表的电子商务网站的商业和经济模式。
传统零售点由于摆货场地限制,一般摆放热门商品(即热门推荐),遵循二八定律(80%的利润来源于20%的热门商品)。
电子商务网站销售的种类繁多,绝大多数商品都不热门。热门商品往往代表了用户的普遍需求,而长尾商品则代表了用户的个性化需求。推荐系统通过发掘用??的行为记录,找到用户的个性化需求,从而准确地将长尾商品准确地推荐给需要它的用户,实现用户和商家的双赢。互联网使得99%的商品都有机会进行销售,市场曲线中那条长长的尾部成为可以寄予厚望的、新的利润增长点。;推荐方法
专家推荐:本质上是人工推荐,其他推荐算法结果的补充。
基于统计的推荐:基于统计信息的推荐,如热门推荐,但对用户个性化偏好描述能力较弱。
基于内容的推荐:通过机器学习的方法去描述内容的特征,并基于内容的特征来发现与之相似的内容。关注物品本身的特征,通过物品自身的特征来找到相似的物品。
协同过滤推荐:利用用户的历史信息计算用户之间的距离,利用目标用户的最近邻居用户对商品的评价信息来预测目标用户对特定商品的喜好程度,然后对目标用户进行推荐。关注用户和物品间的联系,与物品自身特征没有太多关系。
混合推荐:单一的推荐算法往往无法取得良好的推荐效果,多数推荐系统会有机结合多种推荐算法。;推荐系统模型
;推荐系统的应用
推荐系统分为离线计算部分(较高准确度)/实时计算部分(快速响应,但相对较低的准确度)
亚马逊:推荐系统的鼻祖,渗透到网站的各个角落,实现了多个推荐场景,向用户实时推荐可能感兴趣、有潜在购买可能性的商品。
虾米音乐:根据用户的音乐收藏记录来分析用户的音乐偏好,从而进行推荐。一般是基于内容的推荐为主。
;协同过滤
协同过滤分为基于用户的协同过滤与基于物品的协同过滤。
基于用户的协同过滤(UserCF)
该算法于1992年被提出,符合人们对于“趣味相投”的认知,即兴趣相似的用户往往有相同的物品喜好。
UserCF算法的实现主要包括两个步骤:
找到和目标用户兴趣相似的用户集合。
找到该集合中的用户所喜欢的、
且目标用户没有听说过的物品
推荐给目标用户。
;实现UserCF算法的关键步骤是计算用户与用户之间的兴趣相似度。
目前较多使用的相似度算法有:
泊松相关系数(Person Correlation Coefficient)
余弦相似度(Cosine-based Similarity)
调整余弦相似度(Adjusted Cosine Similarity)
给定用户u和用户v,令N(u)表示用户u感兴趣的物品集合,令N(v)为用户v感兴趣的物品集合,则使用余弦相似度进行计算用户相似度的公式为:
得到用户间的相似度后,再使用如下公式来度量用户u对物品i的兴趣程度Pui:
;基于物品的协同过滤(ItemCF)
Amzon和Netflix的推荐系统的基础是ItemCF算法。
ItemCF算法主要通过分析用户的行为记录来计算物品之间的相似度,给目标用户推荐那些和他们之前喜欢的物品相似的物品。
ItemCF算法与UserCF算法类似,计算也分为两步:
计算物品之间的相似度;
根据物品的相似度和用户的
历史行为,给用户生成推荐列表。
;ItemCF算法通过建立用户到物品倒排表(每个用户喜欢的物品的列表)来计算物品相似度。
;计算物品的相似度
ItemCF计算的是物品相似度,再使用如下公式来度量用户u对物品j的兴趣程度Puj(与UserCF类似):
;UserCF算法和ItemCF算法对比
UserCF算法和ItemCF算法的思想、计算过程都相似,两者最主要的区别:
UserCF算法推荐的是那些和目标用户有共同兴趣爱好的其他用户所喜欢的物品;ItemCF算法推荐的是那些和目标用户之前喜欢的物品类似的其他物品。
UserCF算法的推荐更偏向社会化,而ItemCF算法的推荐更偏向于个性化。;协同过滤实践
采用ItemCF算法,使用Python语言实现一个简易的电影推荐系统。
实验数据:MovieLens 100k数据集包括1000名用户对1700部电影的评分记录,一共10万条电影评分记录。
下载网址:/datasets/movielens
步骤包括:
数据准备
计算相似矩阵
计算推荐结果
展示推荐结
文档评论(0)