推荐系统的架构.docxVIP

下载本文档

2
0
约1.81千字
约 8页
2021-11-16 发布于湖南
举报
版权申诉

推荐系统的架构.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

推举系统的架构 2021-04-05 本文从互联网收集并整理了推举系统的架构，其中包括一些大公司的推举系统框架（数据流存储、计算、模型应用），可以参考这些材料，扬长避短，最终依据本人的业务需求，技术选型来设计相应的框架。后续持续更新并收集。。。 ? ? ? 图1 ? ? ? ?界面UI那一块包含3块东西：1) 通过肯定方式呈现推举物品(物品标题、缩略图、简介等)；2) 给的推举理由；3) 数据反馈改进共性化推举；关于用户数据的存放地方：1)数据库/缓存用来实时取数据；2) hdfs文件上面； ? ? ? 笼统出来的三种推举方式 ? 图2?? ? ? ? ? 图3 ? ? ? ?图3中，推举引擎的构建来源于不同的数据源(也就是用户的特征有很多品种，例如统计的、行为的、主题的)+不同的推举模型算法，推举引擎的架构可以试多样化的(实时推举的+离线推举的)，然后融合推举结果（人工规章+模型结果），融合方式多样的，有线性加权的或者切换式的等 ? 图4 ? ? ? ?图4中，A模块担任用户各类型特征的收集，B模块的相关表是依据图3中的推举引擎来生成的，B模块的输出推举结果用来C模块的输入，两头经过过滤模块(用户已经产生行为的物品，非候选物品，业务方供应的物品黑名单等)，排名模块也依据预设定的推举目标来制定，最终推举解释的生成（这是可能是最简约忽视，但很关键的一环，微信的好友推举玩耍，这一解释已经赛过后台的算法作用了） ? ? ???HULU的推举系统 ? ? ??? ? ? ? ?总结：这个也就跟图3有点类似了，葫芦的推举系统，至少在他blog中写的比较简约。更多的是对推举系统在线部分的一种描述，离线部分我猜想也是通过分布式计算或者不同的计算方式将算法产生的数据存储进入一种介质中，供推举系统在线部分调用。系统的整个流程是这样的，首先猎取用户的行为，包括(watch、subscribe、vote)，这样行为会到后台猎取show-show对应的推举数据。同时这些行为也会产生对应的topic，系统也会依据topic到后台猎取topic-show对应的推举数据。两种数据进行混合，然后经过fliter、explanation、ranking这一系列过程，最终生成用户看到的推举数据。 ? ? ? ?淘宝的推举系统(具体跟简约版) ? ? ? ?总结：淘宝的推举系统，描述了推举引擎搭建的全体架构，包括离线的分布式计算和存储、监控、数据统计和分析、试验平台等。给我们搭建推举引擎供应了很好的建议。全体流程大致这样。通过后台的分布式计算，将算法产生的算法结果数据存储进入一种介质中，首推hbase。然后，通过一种叫做云梯的机制将算法结果推入两头层介质中，供推举系统在线部分调用。在线部分供应引擎和试验分流，用户的行为将存储进入hadoop中，数据统计分析平台由hive来搭建，次要用来分析和统计hadoop中的用户行为log。这张图不只讲了，推举系统的架构流程，也讲了跟这个平台有关系的人，是怎样介入的，我觉得供应的信息可很好的参考。 ? ? Netflix的推举系统 ? ? ? ?总结：netflix的推举系统，描述了推举引擎搭建的全体架构，接受了三种计算方式的结合。全体流程：用户通过UI产生大事跟行为，然后分发给离线（我理解的是按天存储）、近线存储（不供应历史，存储当天用户实时行为。不晓得理解能否有误），离线的计算利用离线的数据建好模型供实时调用，近线的计算利用用户的实时行为计算得出规章供实时调用，最终在线的计算通过前两种方式来得到最终的推举结果，关键问题，就是如何以无缝方式结合、管理在线和离线计算过程，当然找到这些要求之间恰当的平衡并不简约，需要深思熟虑的需求分析，细心的技术选择，战略性的推举算法分解，最终才能为客户达成最佳的结果。