大数据驱动下的微博社会化推荐.pptx

下载文档 降价啦

14
0
约4.05千字
约 28页
2016-12-06 发布于重庆
举报
版权申诉
保障服务

大数据驱动下的微博社会化推荐.pptx

1、本文档共28页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

大数据驱动下的微博社会化推荐

大数据驱动下的微博社会化推荐重庆大学软件信息服务工程实验室余俊良微博的数据特点微博是一个以内容消费为核心的偏弱关系社交网络，关系的构建多是依托于兴趣。它是半开放的，用户看到的大部分内容，来自于2层关注构建的网络。而对社交网络而言，用户关系网络结构、内容信息、用户是其数据三要素。微博的数据特点用户关系网络结构：呈现海量、社会化、兴趣弱关系、半开放等4个方面的特点。微博关系网络拥有超过6亿个节点、1000多亿条边，每天有海量信息通过这张网络传输。它就像一个虚拟社会，带着社会化分工、去中心化、非对等性的属性；每个用户都有自己的真实身份和角色，比如橙V、蓝V、普通用户，承担不同的职责并具备不同的话语权，在内容的生产、传播、消费的过程中，扮演着不同角色。微博的数据特点内容信息：微博的信息是简短、丰富而碎片化的，同时存在着UGC和媒体内容，具备极快的传播速度。微博由点及面和Timeline的Feed流设计，使其具备极好的信息传播能力，这是微博的优势，但同样也会引发问题——飞速的传播让旧信息很快被淹没掉，不管其价值多寡。因此对于推荐系统来说，其主要目标就是让优质信息沉淀下来并获得更多的曝光机会，这也是之所以要做“错过的微博”的原因。微博的数据特点微博用户具备个性化的行为和偏好，承担着良好的社会化分工角色。同时，微博通过基于UID的账号体系来识别用户，记录历史数据并存储关系数据，从而精确地了解每一个用户，也为后面个性化推荐打下良好的基础。微博推荐系统设计微博推荐的设计主要包括产品、架构、算法3个方面。产品设计微博自然推荐分为用户和内容推荐两个部分。微博推荐系统产品设计用户推荐微博推荐系统产品设计用户推荐效果衡量指标：用户推荐结果点击率------千次曝光的用户关系达成量--------关系达成后的互动率和用户行为量产品设计原则：推荐是用户预期之外的非自然流量，应该顺应用户的行为，以自然流畅的方式展现给用户。微博推荐系统产品设计内容推荐内容推荐的产品目标是加速优质信息传播以满足内容消费需求，“错过的微博、赞过的微博、正文页相关推荐、热点话题”则是其中具有代表性的内容推荐产品，这里重点介绍下“错过的微博”的设计思路。微博推荐系统产品设计“错过的微博”前身是一个叫做“智能排序“的推荐产品，主要用于解决信息过载情况下的排序问题。正常情况下，微博用户平均每天会接收到2000+条Feed，而真正阅读的内容不超过200条，那么怎样才能让用户看到更多高价值信息，减少低质内容曝光，从而提升内容消费体验，这正是产品的设计目的。“智能排序”采用了简单直接的设计思路：Feed流按价值高低整体排序，这样做存在两个问题：1. 定义及量化信息对用户的价值 2. 信息价值和时间顺序的平衡微博推荐系统产品设计“智能排序”不是一个优雅的解决方案，而后通过数据分析发现：用户错过的90+%信息中，只有部分内容是对用户具有极高价值且不容错过的，所以这里无需对未读Feed全排序，只需要将最高价值的信息找出来并推荐给用户，其它的Feed仍按正常时间序排列。这样做一方面可以让Feed流整体上符合Timeline的排序，用户感觉自然流畅；另一方面，与用户对最高价值的信息认知上比较接近，算法效果比较理想。产品推出后，用户认可度很高，互动率远远高于普通Feed。微博推荐系统架构设计推荐系统的架构设计，包含在线服务，以及数据存储、传输、计算两个部分。数据部分的整体架构分为Online和Offline两个部分，其中Online部分通过Kafka/Scribe把用户的即时行为和发布内容传输到流式计算系统Storm中做即时处理，处理的结构化数据存储到Redis中。而Offline的数据，主要通过Hadoop平台做基础的存储，然后通过Spark/MapReduce等分布式计算后，将直接应用到在线服务的数据存储到HBase/Lushan/Redis等数据库中，亦或是存放到在线服务的本地文件。微博推荐系统架构设计微博推荐系统架构设计在线服务的架构设计通过UVE（Uniform Value Estimate）来分发非自然流量——广告、运营、推荐。推荐经过应用层接入后，会进入在线服务的核心处理模块lab_common_so，这个模块主要实现了3项功能。流量切分：即按满足同样数据分布的方式切分流量，用于算法策略的灰度实验。排序：通过LR模型（ctr or RPM or ctr*click_value）实现推荐结果的精选排序。算法策略选择：动态加载更新算法策略库.so文件。微博推荐系统架构设计微博推荐候选集非常庞大，架构设计中分为初选与精选两个模块，精选模块位于lab_common_so中，而初选由独立的功能模块来承担，来源于3个维度：离线计算：如用户推荐95%的结果来自离线计算。Storm流式计算：实时计算用