- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据环境下的推荐系统架构汇报人:余俊良背景毫无疑问,这是一个数据爆发的时代。一分钟内,推特上有 20 万条新消息被发送;在“Facebook”上用户浏览的信息超过 1000 万条。人们在享受网络带来便捷的同时,产生了大量的新型多结构数据。有人说,世界的本质就是数据,大数据将开启一次重大的时代转型。 背景当然,如果处理不好大数据,人类可能会被大数据“反噬”,找到自己需要的信息变得更困难,迷失于大数据之中。有用的信息埋没于繁杂的数据中的 现象被称为“信息过载”。在大数据时代,让用户从海量的信息中找到自己想要的信息实在是有点强人所难。时代变了,用户获取知识的方式也应随之改变:利用推荐技术向用户推送个性化服务。推荐系统研究现状目前推荐系统的研究内容和方向主要包括以下几个方面:1、推荐技术的研究2、推荐的实时性与推荐质量3、利用云计算提高推荐系统计算能力4、推荐系统的可解释性5、用户隐私问题推荐系统组成产品核心数据算法推荐系统组成产品同类或者相关商品、店铺推荐买了还买、看来还看等猜你喜欢群体信息披露热门排行榜etc推荐系统组成数据显式数据:能准确的反应用户对物品的真实喜好,但需要用户付出额外的代价-用户收藏-用户评价隐式数据:通过一些分析和处理,才能反映用户的喜好,只是数据不是很精确,有些行为的分析存在较大的噪音-用户浏览-页面停留时间-访问次数推荐系统组成算法算法类型: 基于内存的算法 基于模型的算法 基于内容的算法 LR算法计算方式:离线:用户偏好分析、用户购买力分析、关联性分析在线:排序、过滤、增量计算传统的推荐系统框架用户行为日志存储系统推荐系统UI用户数据反馈日志系统传统的推荐系统框架传统的推荐系统框架通常只能应对少量的推荐需求,面对如今的多用户反馈,多商品信息,要求根据上下文进行实时性推荐等是无能为力的。通过将推荐系统部署在云平台,利用集群的计算能力解决大数据下的推荐问题,已是大势所趋。大数据环境下的推荐系统大数据环境下推荐系统的挑战海量实时精准用户实时采集用户体验商品实时计算业界口碑行为实时预测流量大数据环境下的推荐系统一个好的推荐系统快速处理新 增数据和实 时交互分析处理海 量数据灵活加入和 迭代各种推 荐算法低延迟响应 高QPS的推 荐请求大数据环境下的推荐系统基于云平台的推荐系统分层架构大数据环境下的推荐系统整个推荐系统的底层运转和计算大量依赖于Hadoop生态系统计算存储数据流? 超过20000个 MapReduce 任 务? 超过100个Spark任务? 处理超过 500GB的数据 流? 处理超过10亿 条消息? 超过200TB HDFS存储? 超过20TBHbase使用? 每天新生成数 据超过1TB大数据环境下的推荐系统计算Map ReduceSparkSpark与推荐算法? 基于内存的数据缓存和计算? 基于RDD的数据集逻辑结构? Scala简洁的基于函数式的编程体验大数据环境下的推荐系统存储HDFS? 分布式文件系统HBase分布式Key-ValueSchema Free Hive? 基于HDFS的数据仓库? 类SQL查询语言大数据环境下的推荐系统数据流FlumeKafka? 分布式消息队列Push PullStorm? 实时计算框架? 高可用的,高可靠的,分布式的海量日志采 集、聚合和传输技术架构技术架构Online服务引擎? 高并发、低延迟、高稳定Load Balance / Scalability在线计算数据缓存 – Couchbase / Redis? 数据加载和更新? 运算和预测技术架构Nearline用户行为收集? 从日志服务器收集用户行为基于Apache Flume进行读取分发用户行为分发? 近在线部分将事件发送给Kafka? 离线部分将数据存储到HDFS技术架构Nearline基于Kafka + Storm? 高稳定性? 高实时性? 高并发度实现分布式的实时数据计算? 内容相关性计算Online Learning技术架构Offline数据建模?用户兴趣建模/商品建模?用户/商品聚类?内容去重推荐算法?Item CF?矩阵分解?基于内容的推荐机器学习?排序模型?CTR预估推荐流程上线与迭代理论支持线下测试在线A/B测试全量上线测试失败
您可能关注的文档
- 探索植物的奥秘.doc
- 第1章-模态分析理论基础.ppt
- 2015-2016学年高中化学专题4第二单元生产生活中的含氮化合物(第1课时)氮氧化物的产生及转化课件方案.ppt
- 探讨新时代大学生学习环境和就业前景.ppt
- 探询客户需求和产品介绍(顾蓉蓉).pptx
- 接入政务网方案.docx
- 2015-2016学年高中化学专题3第二单元含硅矿物及信息材料(第2课时)二氧化硅与信息材料课件苏教版必修1方案.ppt
- 2015-2016学年高中化学专题3第二单元含硅矿物及信息材料(第1课时)硅酸盐矿物与硅酸盐产品课件方案.ppt
- 接口_第5章 中断技术.ppt
- 第1章AutoCAD 2012 概述.doc
- 推荐课程9最新项目经理继续教育题库.docx
- 2015-2016学年高中政治第7课第1课时按劳分配为主体多种分配方式并存课件新人教版必修1方案.ppt
- 第1章急危重症护理学..ppt
- 第1课 空气 氧气.2016广东省中考化学复习课件:第一部分《身边的化学物质》.ppt
- 2015-2016学年高中政治专题6.2博大精深的中华文化课件新人教版必修3方案.ppt
- 2015-2016学年高中历史第四单元第13课从蒸汽机到互联网对点练习新人教版必修3方案.doc
- 2015-2016学年高中政治3.9.2用对立统一的观点看问题课件新人教版必修4方案.ppt
- 描写美好爱情的古诗词.doc
- 2015-2016学年高中物理5.1曲线运动课时作业新人教版必修2方案.doc
- 2015-2016学年高中政治第一单元文化与生活1.2文化与经济、政治课件方案.ppt
最近下载
- 天然气管道安装工程施工组织设计.doc VIP
- 23G518-1 门式刚架轻型房屋钢结构(无吊车) .docx VIP
- 推拿治疗腰椎病.pptx VIP
- GB∕T 6185.1-2016 2型全金属六角锁紧螺母(高清版).pdf
- 专题10 阅读理解应用文-五年(2020-2024)高考英语真题分类汇编(全国版)(原卷版).docx VIP
- 南通如皋五年级上学期理科素养期中试卷及答案.pdf VIP
- 宠物医疗市场宠物医疗人才培养与市场需求分析报告2025.docx
- 员工罚款单表格模板.docx VIP
- 2.3程序设计基本知识课件人教中图版高中信息技术必修1.pptx VIP
- 大批量主机系统自动部署.docx
原创力文档


文档评论(0)