推荐系统架构.pptxVIP

下载本文档

14
0
约1.77千字
约 24页
2016-12-23 发布于湖北
举报
版权申诉

推荐系统架构.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大数据环境下的推荐系统架构汇报人：余俊良背景毫无疑问，这是一个数据爆发的时代。一分钟内，推特上有 20 万条新消息被发送；在“Facebook”上用户浏览的信息超过 1000 万条。人们在享受网络带来便捷的同时，产生了大量的新型多结构数据。有人说，世界的本质就是数据，大数据将开启一次重大的时代转型。背景当然，如果处理不好大数据，人类可能会被大数据“反噬”，找到自己需要的信息变得更困难，迷失于大数据之中。有用的信息埋没于繁杂的数据中的现象被称为“信息过载”。在大数据时代，让用户从海量的信息中找到自己想要的信息实在是有点强人所难。时代变了，用户获取知识的方式也应随之改变：利用推荐技术向用户推送个性化服务。推荐系统研究现状目前推荐系统的研究内容和方向主要包括以下几个方面：1、推荐技术的研究2、推荐的实时性与推荐质量3、利用云计算提高推荐系统计算能力4、推荐系统的可解释性5、用户隐私问题推荐系统组成产品核心数据算法推荐系统组成产品同类或者相关商品、店铺推荐买了还买、看来还看等猜你喜欢群体信息披露热门排行榜etc推荐系统组成数据显式数据：能准确的反应用户对物品的真实喜好，但需要用户付出额外的代价-用户收藏-用户评价隐式数据：通过一些分析和处理，才能反映用户的喜好，只是数据不是很精确，有些行为的分析存在较大的噪音-用户浏览-页面停留时间-访问次数推荐系统组成算法算法类型：基于内存的算法基于模型的算法基于内容的算法 LR算法计算方式：离线：用户偏好分析、用户购买力分析、关联性分析在线：排序、过滤、增量计算传统的推荐系统框架用户行为日志存储系统推荐系统UI用户数据反馈日志系统传统的推荐系统框架传统的推荐系统框架通常只能应对少量的推荐需求，面对如今的多用户反馈，多商品信息，要求根据上下文进行实时性推荐等是无能为力的。通过将推荐系统部署在云平台，利用集群的计算能力解决大数据下的推荐问题，已是大势所趋。大数据环境下的推荐系统大数据环境下推荐系统的挑战海量实时精准用户实时采集用户体验商品实时计算业界口碑行为实时预测流量大数据环境下的推荐系统一个好的推荐系统快速处理新增数据和实时交互分析处理海量数据灵活加入和迭代各种推荐算法低延迟响应高QPS的推荐请求大数据环境下的推荐系统基于云平台的推荐系统分层架构大数据环境下的推荐系统整个推荐系统的底层运转和计算大量依赖于Hadoop生态系统计算存储数据流? 超过20000个 MapReduce 任务? 超过100个Spark任务? 处理超过 500GB的数据流? 处理超过10亿条消息? 超过200TB HDFS存储? 超过20TBHbase使用? 每天新生成数据超过1TB大数据环境下的推荐系统计算Map ReduceSparkSpark与推荐算法? 基于内存的数据缓存和计算? 基于RDD的数据集逻辑结构? Scala简洁的基于函数式的编程体验大数据环境下的推荐系统存储HDFS? 分布式文件系统HBase分布式Key-ValueSchema Free Hive? 基于HDFS的数据仓库? 类SQL查询语言大数据环境下的推荐系统数据流FlumeKafka? 分布式消息队列Push PullStorm? 实时计算框架? 高可用的，高可靠的，分布式的海量日志采集、聚合和传输技术架构技术架构Online服务引擎? 高并发、低延迟、高稳定Load Balance / Scalability在线计算数据缓存 – Couchbase / Redis? 数据加载和更新? 运算和预测技术架构Nearline用户行为收集? 从日志服务器收集用户行为基于Apache Flume进行读取分发用户行为分发? 近在线部分将事件发送给Kafka? 离线部分将数据存储到HDFS技术架构Nearline基于Kafka + Storm? 高稳定性? 高实时性? 高并发度实现分布式的实时数据计算? 内容相关性计算Online Learning技术架构Offline数据建模?用户兴趣建模/商品建模?用户/商品聚类?内容去重推荐算法?Item CF?矩阵分解?基于内容的推荐机器学习?排序模型?CTR预估推荐流程上线与迭代理论支持线下测试在线A/B测试全量上线测试失败