- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
推荐引擎-科学网—博客
专题 第 8 卷 第 6 期 2012 年 6 月
推荐引擎:信息暗海的领航员
1 1 2
Terry Lau 张韶峰 周 涛
1北京百分点信息科技有限公司
关键词 :推荐引擎 电子商务 海量数据 2电子科技大学
引言 景和产品,呈现较完整的个性化推荐的轮廓。
互联网的发展使我们获取的信息总量以指数级 系统架构
别增长,目前已知的网页超过5000亿,仅淘宝网上
就有接近10亿件商品。而我们分辨甄选信息的能力 作为商用的推荐引擎,良好的架构设计是服务
并没有提高。对于普通用户来说,大多数信息是暗 稳定、可靠和扩展的基础。
信息——我们有可能对某些信息感兴趣,但由于没 如图1所示,百分点推荐引擎分为存储层、业
有 “领航员”的帮助,我们无法看到这些信息。这 务层、算法层和管理层四大功能组件。每个组件内
种被称为 “信息过载”的问题,正是目前互联网发 部又分为更小的单元或者服务模块,提供基本的存
展中遇到的最棘手、最重要的问题。 储或运算服务。单元与单元之间尽量解耦和,仅通
推荐引擎最有希望解决信息过载的问题。推 过API协议进行协作,这样一个单元的升级变动带
荐引擎的本质是通过分析用户历史活动的记录, 来的影响是可控的。
包括音乐下载、视频观看、图书购买、网络约 存储层 提供基本的数据存取服务,并做好
会、朋友互动、论坛评论等等,分析用户的个性 备份和容灾恢复工作,以保证数据的安全可靠。根
化喜好,主动向用户推荐他们感兴趣的信息。推 据不同的应用需求,存储层分为Redis集群、Mem-
荐引擎的精髓是个性化,通过分析群体数据,得 b ase集群、My SQL集群和Hadoop/HDF S四类。其
到每位用户的个性化喜好,再进行个性化推荐。 中Redi s和M emb a se作为缓存,提供高效的读写操
很多用户最早接触的推荐引擎是亚马逊 (A m a- 作,支持实时计算,M y SQL集群用于固化缓存中
z on )的推荐服务,因此留下了一些刻板的印象, 的数据,Hadoop/HDFS为海量数据的存储和分析提
例如推荐引擎服务的都是电子商务公司,采用的 供支持。
都是相似的挖掘方法 (比如关联规则和协同过 算法层 是推荐引擎最核心和最具挑战性的
滤), “看过还看过,买过还买过”这类推荐通 部分,在百分点推荐引擎中是一系列推荐算法的集
过简单的数据库查询就可以完成。 合,包括简单的基于相关的联规则挖掘、用户协同
我们正在经历由个性化推荐技术构筑未来商业 过滤、产品协同过滤、局部扩散与热传导算法,复
模式,基于很多读者对个性化推荐的憧憬和误解, 杂的考虑标签、内容和属性的统计学习模型,剖分
本文将以国内领先的推荐引擎提供商为实例,介绍 用户长短期兴趣的实时自适应算法等等。算法层不
其架构和算法,展示基于个性化推荐技术的应用场 关心具体的业务逻辑,只负责数据处理和结果返
22
第 8 卷 第 6 期 2012 年 6 月
案例
基于用户行为的推荐算法
配置
基于内容的推荐算法 管理
文档评论(0)