网站大量收购闲置独家精品文档,联系QQ:2885784924

个性化推荐十大挑战(上).pdf

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
个性化推荐十大挑战 (上) 有的人觉得个性化推荐就是细分市场和精准营销,实际上细分市场和精准营销往往是把潜在 的用户分成很多群体,这固然相比基于全体的统计有了长足的进步,但是距离 给每一个用户“ 量身定做的信息服务 ”还有很大的差距,所以,只能说个性化推荐是细分市场的极致 !实际上 ,信息服务经历了两次理念上的变革,第一次是从总体到群体,第二次是从群体到个体。第 二次变革正在进行中,所要用到的核心技术就是这篇文章要讨论的个性化推荐技术。 有读者觉得个性化推荐就等同于协同过滤,这可能是因为协同过滤应用比较广泛并且比较容易为大 众理解。实际上协同过滤只是个性化推荐技术中的一个成员。它与很多更先进技术相比,就好像流 行歌曲和高雅音乐,前者广受欢迎,而且一般人也可以拿个麦克风吼两声,但是说到艺术高度,流 行歌曲还是要差一些。当然,流行歌曲经济价值可能更大,这也是事实。总的来说,协同过滤只是 个性化推荐技术中的一款轻武器,远远不等于个性化推荐技术本身。 图1 :信息服务的两次变革:从总体到群体,从群体到个体。 有些读者可能不是很了解个性化推荐,我先推荐一些阅读的材料。中文的综述可以看我们 2009 年 在《自然科学进展》上的综述。这篇文章质量不能说很好,但是可以比较快得到很多信息,了解个 性化推荐研究的概貌。有了这个基础,如果想要了解突出应用的算法和技术,我推荐项亮和陈义合 著的《推荐系统实践》。百分点科技出版过一本名为《个性化:商业的未来》的小册子,应用场景 和商业模式介绍得比较细致,技术上涉及很少,附录里面介绍了一些主流算法和可能的缺陷,或许 能够稍有启发。国外的专著建议关注最近出版的两本,其中实际上是很多文章的汇总,因为写这些 文章的都是达人,所以质量上佳。 Adomavicius 和 Tuzhilin 的大型综述特别有影响力,不仅系统回顾 了推荐系统研究的全貌,还提出了一些有趣的开放性问题 —— 尽管我个人不是很喜欢他们对于推荐 系统的分类方法。我们今年发表了一篇大综述,应该是目前最全面的综述,所强调的不仅仅是算法 ,还有很多现象和思路 —— 大家有兴趣不妨看看。 有些读者认为个性化推荐技术的研究已经进入了很成熟的阶段,没有什么特别激动人心的问题和 成果。恰恰相反,现在个性化推荐技术面临很大的挑战,这也是本文力图让大家认识的。接下来进 入正题 !我将列出十个挑战 (仅代表个人观点 ),其中有一些是很多年前就认识到但是没有得到解决的 长期问题,有一些事实上不可能完全解决,只能提出改良方案,还有一些是最近的一些研究提出来 的焦点问题。特别要提醒读者注意的是,这十个挑战并不是孤立的,极有可能一个方向上的突破能 够对若干重大挑战都带来进展。 挑战一:数据稀疏性问题。 现在待处理的推荐系统规模越来越大,用户和商品 (也包括其他物品,譬如音乐、网页、文献 ……) 数目动辄百千万计,两个用户之间选择的重叠非常少。如果用用户和商品之间已有的选择关系占所 有可能存在的选择关系的比例来衡量系统的稀疏性,那么我们平时研究最多的 MovieLens 数据集的 稀疏度是 4.5% ,Netflix 是 1.2% 。这些其实都是非常密的数据了, Bibsonomy 是 0.35% , Delicious 是0.046% 。想想淘宝上号称有近 10亿商品,平均而言一个用户能浏览 1000 件吗,估计不能,所以 稀疏度应该在百万分之一或以下的量级。数据非常稀疏,使得绝大部分基于关联分析的算法 (譬如协 同过滤 )效果都不好。这种情况下,通过珍贵的选择数据让用户和用户,商品和商品之间产生关联的 重要性,往往要比用户之间对商品打分的相关性还重要。举个例子来说,你注意到一个用户看了一 部鬼片,这就很大程度上暴露了用户的兴趣,并且使其和很多其他看过同样片子的用户关联起来 了—— 至于他给这个片子评价高还是低,反而不那么重要了。事实上,我们最近的分析显示,稀疏 数据情况下给同一个商品分别打负分 (低评价

文档评论(0)

tianya189 + 关注
官方认证
内容提供者

该用户很懒,什么也没介绍

认证主体阳新县融易互联网技术工作室
IP属地湖北
统一社会信用代码/组织机构代码
92420222MA4ELHM75D

1亿VIP精品文档

相关文档