【精选】深度丨从零搭建推荐体系:概述及标签体系搭建(上).pdf

【精选】深度丨从零搭建推荐体系:概述及标签体系搭建(上).pdf

  1. 1、本文档共18页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
【精选】深度丨从零搭建推荐体系:概述及标签体系搭建(上)

深度 丨从零搭建推荐体系 :概述及标签体系搭建 (上 ) 本文阐述整个推荐体系从0搭建的全流程 ,也 最近以来一直深入研究的成果展现。因原文 太长 ,故此切分成3部分发送 ,每天发送1篇。全文结构为 :上篇 :第零章概述 ,第一章标签 体系搭建 ;中篇 :第三章用户体系 ,第四章项目体系 ,下篇 :第五章推荐体系 ,第六章评估 体系 ,第七章全文总结 ,第八章参考资料。 内容相对全而深入 ,希望有推荐体系搭建意愿的平台或者产品经理 ,能够给予一定的帮助就好。另 ,求工作。 0 . 概述 随着信息技术的迅速发展和信息内容的日益增长 ,“信息过载”问题愈来愈严重 ,愈发带来很大的信 息负担。推荐系统可以有效缓解此难题 ,从而得到推崇并加以广泛应用。 简单来说 :推荐系统是通过挖掘用户与项目之间的二元关系 ,帮助用户从大量数据中 现其可能感 兴趣的项目如网页、服务、商品、人等 ,并生成个性化推荐以满足个性化需求。目前市场上对于电 子商务的推荐系统有亚马逊、阿里巴巴、豆瓣网、当当网等 ,信息检索的有谷歌、雅虎、百度等 , 以及在其它周边领域广泛运用如移动应用、电子旅游、互联网广告等。本文只阐述网页内容 ,特制 新闻方面的项目体系搭建。 研究者认为根据施拉姆信息选择公式 ,人们对媒体的注意或选择的可能性 (然率 )与它能够提供的 报偿 (价值 )程度成正比 ,与人们获得它的代价 (费力 )程度成反比。也就 说 :人们愿意用最小 的代价获取价值最大的新闻信息。由此 ,媒体要从认知接收方面 ,减轻受众的“费力”程度 ,提升信 息或传媒的价值 ,树立品牌意识 ,形成规模效应 ;拥有与众不同的品味和特色 ,将自己在受众眼 中的“可读”形象转变成“必读”形象 ,从而使用户对媒介产品形成强烈的信赖感和依赖感 ,在受众心中 形成稳定的独特风格。 下图 一般情况下的推荐系统基本框架 (图片取自网络 ): 从最初的数据收集 ,到最末端的展示阶段 ,中间还经过数据处理以及生成环节 ,处理大多数所指提 取特征初处理 ,生成一般 指利用特征来选取相应算法进行匹配计算。数据的整个生命周期如下 : 也就 从数据获取 ,一直到最后的加工输出 ,经历的整个环节 ,最终给我们提供相应的有效信息 , 采取相应的有效手段 ,才 数据价值的最终体现。 在正式开始前 ,对于数据收集的要求也 很高 ,如果数据不准确或有偏差 ,很可能之后做的都 徒 劳无功 ,下表为目前常见的数据收集时常见的问题 : 对于新闻内容的推荐系统 ,让人们最顺畅获取到人们想看到的内容 ,从而形成核心竞争力。推荐系 统的常规推荐系统 ,一共分为两条线 ,第一条线 用户 ,第二条线 项目 ,计算两者间的相关近 似值 ,从而完成推荐。计算近似值一定有所媒介 ,这个媒介就 标签 (Tag )系统 ,所以在建设整 个体系之前 ,最优先需要建设的就 标签系统 ,其次 用户体系 ,也就 用户模型 ,我们在感知用 户唯一的途径就 通过用户操作 ,换言之既用户行为 ,所以相对用户行为微妙的变化 ,要求我们的 用户体系 十分敏感的 ,而最后 项目体系 ,这里特指新闻内容。 下面将从产品层面尽量描述如何搭建推荐体系相关流程及细节 ,整体搭建思路流程如下 : 整体相对比较复杂 ,下面将逐一阐述其中细节。 1. 标签体系 1.1 搭建流程 要做标签体系 ,我们要先确定的就 系统结构 ,常规来看一般都 讲标签随内容或用户建设 (但 我觉得那样 不完整的 ,在之后获取不到更加有效有帮助的信息 ,这也就 为什么我认为一定要将 标签体系一定要单独拎出来的原因 )。 在确定系统结构之后 ,我们要进行相关的算法选择 ,并且大致选定学习的范围和地点 ,以供机器 学习 ,至此整个标签体系的搭建流程就此完毕。随着不断的内容填充进来 ,要有相应的标签不断补 充进来。这 一个长期的过程 ,并且也需要及时依据用户反馈修正算法 ,实时调整 ,并非一日之功 。 1.2 二维化结构 常规网络的标签 随用户和内容添加的 ,但 会有局限性 ,也就 标签体系较难或无法透彻追查其 它相关联内容。实际上标签体系的核心价值 ,体现在相应建立起信息和人、人与人之间的关联。 所 以我在思考 :如何能够进行最深入的追查最深处的关联 ?有一个常规方案就 单独建立标签体系 , 将标签平铺于系统中 ,也就 二维化。通过机器学习 ,建立标签的基本联系网络 ,之后贴合于用户 与内容中即可。无立体结构的上下层级展示 ,好处 可以避免了一维化的后果。换句话说如果有 层级 ,那么不可避免的就会变成一级、二级。 简单来说 :与某标签周遭相关联的一切标签均展示

您可能关注的文档

文档评论(0)

vshoulrengb3 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档