- 1、本文档共18页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
【精选】深度丨从零搭建推荐体系:概述及标签体系搭建(上)
深度 丨从零搭建推荐体系 :概述及标签体系搭建 (上 )
本文阐述整个推荐体系从0搭建的全流程 ,也 最近以来一直深入研究的成果展现。因原文
太长 ,故此切分成3部分发送 ,每天发送1篇。全文结构为 :上篇 :第零章概述 ,第一章标签
体系搭建 ;中篇 :第三章用户体系 ,第四章项目体系 ,下篇 :第五章推荐体系 ,第六章评估
体系 ,第七章全文总结 ,第八章参考资料。
内容相对全而深入 ,希望有推荐体系搭建意愿的平台或者产品经理 ,能够给予一定的帮助就好。另
,求工作。
0 . 概述
随着信息技术的迅速发展和信息内容的日益增长 ,“信息过载”问题愈来愈严重 ,愈发带来很大的信
息负担。推荐系统可以有效缓解此难题 ,从而得到推崇并加以广泛应用。
简单来说 :推荐系统是通过挖掘用户与项目之间的二元关系 ,帮助用户从大量数据中 现其可能感
兴趣的项目如网页、服务、商品、人等 ,并生成个性化推荐以满足个性化需求。目前市场上对于电
子商务的推荐系统有亚马逊、阿里巴巴、豆瓣网、当当网等 ,信息检索的有谷歌、雅虎、百度等 ,
以及在其它周边领域广泛运用如移动应用、电子旅游、互联网广告等。本文只阐述网页内容 ,特制
新闻方面的项目体系搭建。
研究者认为根据施拉姆信息选择公式 ,人们对媒体的注意或选择的可能性 (然率 )与它能够提供的
报偿 (价值 )程度成正比 ,与人们获得它的代价 (费力 )程度成反比。也就 说 :人们愿意用最小
的代价获取价值最大的新闻信息。由此 ,媒体要从认知接收方面 ,减轻受众的“费力”程度 ,提升信
息或传媒的价值 ,树立品牌意识 ,形成规模效应 ;拥有与众不同的品味和特色 ,将自己在受众眼
中的“可读”形象转变成“必读”形象 ,从而使用户对媒介产品形成强烈的信赖感和依赖感 ,在受众心中
形成稳定的独特风格。
下图 一般情况下的推荐系统基本框架 (图片取自网络 ):
从最初的数据收集 ,到最末端的展示阶段 ,中间还经过数据处理以及生成环节 ,处理大多数所指提
取特征初处理 ,生成一般 指利用特征来选取相应算法进行匹配计算。数据的整个生命周期如下 :
也就 从数据获取 ,一直到最后的加工输出 ,经历的整个环节 ,最终给我们提供相应的有效信息 ,
采取相应的有效手段 ,才 数据价值的最终体现。
在正式开始前 ,对于数据收集的要求也 很高 ,如果数据不准确或有偏差 ,很可能之后做的都 徒
劳无功 ,下表为目前常见的数据收集时常见的问题 :
对于新闻内容的推荐系统 ,让人们最顺畅获取到人们想看到的内容 ,从而形成核心竞争力。推荐系
统的常规推荐系统 ,一共分为两条线 ,第一条线 用户 ,第二条线 项目 ,计算两者间的相关近
似值 ,从而完成推荐。计算近似值一定有所媒介 ,这个媒介就 标签 (Tag )系统 ,所以在建设整
个体系之前 ,最优先需要建设的就 标签系统 ,其次 用户体系 ,也就 用户模型 ,我们在感知用
户唯一的途径就 通过用户操作 ,换言之既用户行为 ,所以相对用户行为微妙的变化 ,要求我们的
用户体系 十分敏感的 ,而最后 项目体系 ,这里特指新闻内容。
下面将从产品层面尽量描述如何搭建推荐体系相关流程及细节 ,整体搭建思路流程如下 :
整体相对比较复杂 ,下面将逐一阐述其中细节。
1. 标签体系
1.1 搭建流程
要做标签体系 ,我们要先确定的就 系统结构 ,常规来看一般都 讲标签随内容或用户建设 (但
我觉得那样 不完整的 ,在之后获取不到更加有效有帮助的信息 ,这也就 为什么我认为一定要将
标签体系一定要单独拎出来的原因 )。
在确定系统结构之后 ,我们要进行相关的算法选择 ,并且大致选定学习的范围和地点 ,以供机器
学习 ,至此整个标签体系的搭建流程就此完毕。随着不断的内容填充进来 ,要有相应的标签不断补
充进来。这 一个长期的过程 ,并且也需要及时依据用户反馈修正算法 ,实时调整 ,并非一日之功
。
1.2 二维化结构
常规网络的标签 随用户和内容添加的 ,但 会有局限性 ,也就 标签体系较难或无法透彻追查其
它相关联内容。实际上标签体系的核心价值 ,体现在相应建立起信息和人、人与人之间的关联。 所
以我在思考 :如何能够进行最深入的追查最深处的关联 ?有一个常规方案就 单独建立标签体系 ,
将标签平铺于系统中 ,也就 二维化。通过机器学习 ,建立标签的基本联系网络 ,之后贴合于用户
与内容中即可。无立体结构的上下层级展示 ,好处 可以避免了一维化的后果。换句话说如果有
层级 ,那么不可避免的就会变成一级、二级。
简单来说 :与某标签周遭相关联的一切标签均展示
您可能关注的文档
- 【精选】液晶的物理性质.pdf
- 【精选】液晶电视市场及产品应用分析.ppt
- 【精选】淘宝、淘宝商城、京东商城、当当网及亚马逊五大购物网站分析.doc
- 【精选】涿州市“十三五”规划研究报告.doc
- 【精选】淘宝发展史:淘宝那点事儿,从一开始说起.doc
- 【精选】消防安全授课材料.ppt
- 【精选】淘宝双十一购物狂欢节促销商品清单(不完全版).pdf
- 【精选】淘宝商城100个实用的网店推广方法.doc
- 【精选】淘宝商城发展的每个阶段详细.doc
- 【精选】淘宝常用专业术语、名词解释.doc
- 北师大版(2024)八年级数学上册课件 3.2 平面直角坐标系 第2课时 点的坐标特征.pptx
- 北师大版(2024)八年级数学上册课件 3.2 平面直角坐标系 第3课时 建立适当的平面直角坐标系.pptx
- 北师大版(2024)八年级数学上册课件 4.3 一次函数的图象 第1课时 正比例函数的图象及性质.pptx
- (人教A版数学选择性必修三)讲义第15讲7.1.1条件概率(学生版+解析).docx
- (人教A版数学选择性必修三)讲义第19讲8.1成对数据的统计相关性(8.1.1变量的相关关系+8.1.2样本相关系数)(学生版+解析).docx
- 北师大版(2024)八年级数学上册课件 5.2 二元一次方程组的解法 第2课时 加减消元法.pptx
- (人教A版数学选择性必修一)2025年秋季学期讲义第01讲1.1.1空间向量及其线性运算(学生版+教师版).docx
- 北师大版(2024)八年级数学上册课件 5.2 二元一次方程组的解法 第1课时 代入消元法.pptx
- 北师大版(2024)八年级数学上册课件 5.3 二元一次方程组的应用 第3课时 二元一次方程组的应用(3).pptx
- 北师大版(2024)八年级数学上册课件 5.4 二元一次方程与一次函数 第2课时 用二元一次方程组确定一次函数表达式.pptx
最近下载
- 清水混凝土模板施工工艺.pdf VIP
- 清水混凝土施工工艺质量控制与防治演示文稿.ppt VIP
- GB50164-2021混凝土质量控制标准.docx VIP
- 文旅项目景区景点城市农文旅融合项目稻田主题策划规划方案【旅游】【文旅】【农旅】【文旅规划】.pptx VIP
- 混凝土结构工程施工质量验收规范(英文版).pptx
- 心血管科中医护理课件.pptx VIP
- 混凝土结构工程施工质量验收规范培训课件.pptx VIP
- 《混凝土结构工程施工质量验收规范》局部修订的条文及.docx VIP
- 2012混凝土结构工程施工质量验收规局部修订.doc VIP
- 《混凝土质量控制标准》XX50164-2011正文精华版.doc VIP
文档评论(0)