- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
个性化推荐十大挑战(上)
个性化推荐十大挑战(上)
有的人觉得个性化推荐就是细分市场和精准营销 ,实际上细分市场和精准营销往往是把 在
的用户分成很多群体 ,这固然相比基于全体的统计有了长足的进步 ,但是距离“给每一个用户
量身定做的信息服务”还有很大的差距 ,所以 ,只能说个性化推荐是细分市场的极致!实际上
,信息服务经历了两次理念上的变革 ,第一次是从总体到群体 ,第二次是从群体到个体。第
二次变革正在进行中 ,所要用到的核心技术就是这篇文章要讨论的个性化推荐技术。
有读者觉得个性化推荐就等同于协同过滤 ,这可能是因为协同过滤应用比较广泛并且比较容易为大
众理解。实际上协同过滤只是个性化推荐技术中的一个成员。它与很多更先进技术相比 ,就好像流
行歌曲和高雅音乐 ,前者广受欢迎 ,而且一般人也可以拿个麦克风吼两声 ,但是说到艺术高度 ,流
行歌曲还是要差一些。当然 ,流行歌曲经济价值可能更大 ,这也是事实。总的来说 ,协同过滤只是
个性化推荐技术中的一款轻武器 ,远远不等于个性化推荐技术本身。
图1 :信息服务的两次变革 :从总体到群体 ,从群体到个体。
有些读者可能不是很了解个性化推荐 ,我先推荐一些阅读的材料。中文的综述可以看我们2009年
在 《自然科学进展》上的综述。这篇文章质量不能说很好 ,但是可以比较快得到很多信息 ,了解个
性化推荐研究的概貌。有了这个基础 ,如果想要了解突出应用的算法和技术 ,我推荐项亮和陈义合
著的 《推荐系统实践》。百分点科技出版过一本名为 《个性化 :商业的未来》的小册子 ,应用场景
和商业模式介绍得比较细致 ,技术上涉及很少 ,附录里面介绍了一些主流算法和可能的缺陷 ,或许
能够稍有启发。国外的专著建议关注最近出版的两本 ,其中实际上是很多文章的汇总 ,因为写这些
文章的都是达人 ,所以质量上佳。A do mavicius和T uz hilin的大型综述特别有影响力 ,不仅系统回顾
了推荐系统研究的全貌 ,还提出了一些有趣的开放性问题——尽管我个人不是很喜欢他们对于推荐
系统的分类方法。我们今年发表了一篇大综述 ,应该是目前最全面的综述 ,所强调的不仅仅是算法
,还有很多现象和思路——大家有兴趣不妨看看。
有些读者认为个性化推荐技术的研究已经进入了很成熟的阶段 ,没有什么特别激动人心的问题和
成果。恰恰相反 ,现在个性化推荐技术面临很大的挑战 ,这也是本文力图让大家认识的。接下来进
入正题!我将列出十个挑战(仅代表个人观点) ,其中有一些是很多年前就认识到但是没有得到解决的
长期问题 ,有一些事实上不可能完全解决 ,只能提出改良方案 ,还有一些是最近的一些研究提出来
的焦点问题。特别要提醒读者注意的是 ,这十个挑战并不是孤立的 ,极有可能一个方向上的突破能
够对若干重大挑战都带来进展。
挑战一 :数据稀疏性问题。
现在待处理的推荐系统规模越来越大 ,用户和商品(也包括其他物品 ,譬如音乐、网页、文献……)
数目动辄百千万计 ,两个用户之间选择的重叠非常少。如果用用户和商品之间已有的选择关系占所
有可能存在的选择关系的比例来衡量系统的稀疏性 ,那么我们平时研究最多的MovieLens数据集的
稀疏度是4 . % ,Netf lix是1.2%。这些其实都是非常密的数据了 ,Bibso no my是0.3 % ,Delicio us
是0.04 6%。想想淘宝上号称有近10亿商品 ,平均而言一个用户能浏览1000件吗 ,估计不能 ,所以
稀疏度应该在百万分之一或以下的量级。数据非常稀疏 ,使得绝大部分基于关联分析的算法(譬如协
同过滤)效果都不好。这种情况下 ,通过珍贵的选择数据让用户和用户 ,商品和商品之间产生关联的
重要性 ,往往要比用户之间对商品打分的相关性还重要。举个例子来说 ,你注意到一个用户看了一
部鬼片 ,这就很大程度上暴露了用户的兴趣 ,并且使其和很多其他看过同样片子的用户关联起来
了——至于他给这个片子评价高还是低 ,反而不那么重要了。事实上 ,我们最近的分析显示 ,稀疏
数据情况下给同一个商品分别打负分(低评价)和打正分的两个用户要看做正相关的而非负相关的 ,
就是说负分扮演了“正面的角色”——我们需要很严肃地重新审查负分的作用 ,有的时候负分甚至作用
大于正分。
这个问题本质上是无法完全克服的 ,但是有很多办法 ,可以在相当程度上缓解这个问题。首先可以
通过扩散的算法 ,从原来的一阶关联(两个用户有多少相似打分或者共同购买的商品)到二阶甚至更高
阶的关联 ,甚至通过迭代寻优的方法 ,考虑全局信息导致的关联。这些方法共同的缺
您可能关注的文档
- CPU供电原理.pdf
- MFRC522 (zlt522)读卡模块用户手册 V1.01.pdf
- 大型城市污水处理厂污染物去除及其影响因素分析.pdf
- TCL新机芯总线进入方法.pdf
- RedHat5下Vmware tools工具的安装.pdf
- S7400CPU414F简介.pdf
- ADP3198主板CPU供电控制芯片.pdf
- S5520SC处理器支持列表.pdf
- WXH-803A(1000KV)说明书CPU1 V1.0 CRC=45A5 CPU2 V1.0 CRC=E03D.pdf
- 电子元器件应用-TLC5510 analog to digital converter interface, digital signal processors - TMS320C203.pdf
最近下载
- 无人机组装调试与检修-第一章-无人机系统概述.pptx VIP
- 卫星定位导航原理(哈尔滨工业大学)知到智慧树网课答案.docx
- T_CEIAESD 1005—2022_防静电不发火地坪施工与质量验收规范.pdf VIP
- 2021-2022年度广东省茂名市茂南区聘任制教师招聘考试《教育综合知识》试卷及答案.pdf VIP
- 入党积极分子结业考试最新复习资料.doc VIP
- _景区门票收费权质押贷款评估案例.pdf VIP
- 2024年入党积极分子培训测试题及答案简答题、论述题.docx VIP
- AI赋能教师专题培训:AI生成式人工智能赋能教育高质量发展.pptx VIP
- 《即兴伴奏与弹唱2》课件——幼儿歌曲钢琴伴奏中小调式副三和弦的应用.pptx VIP
- 2024学年江苏省南京市高二上学期期中考数学试题及答案 .pdf VIP
原创力文档


文档评论(0)