四个步骤,构建个性推荐产品内容池.docVIP

四个步骤,构建个性推荐产品内容池.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
四个步骤,构建个性推荐产品内容池

四个步骤,构建个性推荐产品内容池   文章介绍了通过建大池、粗筛、细筛、精筛,四个步骤搭建内容池的一个过程,与大家分享,希望可以給大家带来启发。      个性化推荐产品有三个核心要素:用户、内容和数据。今天专门分享一下构建内容池方面的一些心得。个性化推荐产品的算法是相似的,差别就在于内容上。视频,商品,新闻,音乐,形态各异,消费方式各异,但构建内容池的思路是相通的。   对于一款个性化推荐产品来说,构建一个好的内容池一般分为四个步骤:大池-粗筛-细筛-精筛。构建过程和使用过程刚好互逆:优先召回精筛池,随后才可能是细筛、粗筛、大池。      下面以构建一个视频类个性化推荐产品为例,分别详细说明。   建大池   首当其冲就是粗略规划好自己的内容的原始来源。要干推荐这活,首先要问自己:内容哪里来?内容原始来源一般有三种:生,买,借。   第一种,生。   也就是自食其力,鼓励用户在自己产品平台上创建内容,俗称UGC,比如快手就属于这种,以及自己组建编辑团队创建内容,大多数媒体型网站都属于这类,俗称PGC。这一类内容都是自己的,算是站内资源。如果站内资源较为丰富的话,那就好办了。当站内资源都足够优质时,则可以直接作为内容池,但实际上大部分网站的内容都有不少杂质,尤其是UGC内容。   从站内资源中找到符合要求的内容,不外乎两个思路。一个是做减法;一个是做加法。做减法就是找那少部分不入流的将其去掉,适合大部分内容都是优质的情况;做加法就是从鸡群中找立鹤。什么样的内容会是好内容?通常有几种: 经得起时间检验的内容,通常是专业编辑们过目之后的内容,比如:各个网站的首页、频道首页、专题等数据效果好的内容,比如:推荐/搜索模块点击量、点击率较高的(好坏的衡量指标根据产品目标而定,可以是点击率、UP值等)可信任的内容源产生的内容,比如:视频网站的优质PGC  第二种,买。   通过公司之间的合作,得到好的内容,例如淘宝的商品被推荐在微博上。这个多是商业合作,此处不讲。   第三种,借。   站外抓取这件事是一个风险极高的事。第一个就是版权问题,当然可以通过避风港原则来规避这一点;第二个就是技术问题,如一旦抓取目标网站页面结构变化,就影响抓取的效果,页面转码以统一成自己平台的风格;第三个是基因问题,某个站的内容已有一定的基因,是否适合自己的平台,一股脑放出去可能是有违和感。那为什么这么多风险,我们还是建议要“借”呢?高风险,高收益嘛,你懂的。   当拿到初始化的内容后,推荐的大池就完成了。   粗筛池   我们已经“警告”过,构建大池,势必会引入一些杂质。杂质是没有资格在一个应用内流转的。我们所说的杂质包含: 背离产品价值观的,如低俗擦边球,色情的;干扰用户正常消费的,如骗点击内容,垃圾内容;威胁平台存活的,如政治类内容。  构建粗筛池,就是从大池中将这些没有资格的内容分拣出来扔掉,同时进行初步的质量评价。   识别这些杂质,一般是机器+人工的模式。我们可以根据内容本身、内容提供商、抓取源等维度进一步对内容池去噪。   对内容质量打分,主要就是构建一个打分模型,利用相关特征拟合一个分数。对于一个视频网站,可以用到的特征有:内容的发布时间、视频长度、视频热度、非广告/政治敏感/色情/黑名单、标题质量,以及视频的历史表现,如点击率、点击量、停留时长等。   对内容提供者打分方法类似,主要区别在于特征,对于视频应用来说,可能有:上传者历史视频的播放量、点击率、播放完成率、赞/踩等;上传者的等级、活跃度、社会影响力等。   最终,根据内容质量分数和内容上传者分数,就建立了一个内容池优选模型,对已有的视频做一个排序,其中低质和劣质的内容可以直接过滤掉。   细筛池   细筛池是在粗筛池之上,结合具体的推荐场景和业务目标,进行一些人为干预:人工调权、调整多样性等。   先说人工调权,需要首先增加一个字段,专门用于设置人工权重。大家不要觉得一提到人工调权就有点“拿不出手”,其实人工权重是必不可少的,某些信息无法通过自有产品数据及时反馈到当前内容上来,如上传者是微博上的KOL,或是视频网站的PGC,这些站外信息虽然人知道,但是没有数据就无法让机器知道,这样就可以通过人工对其调权,以此将其反应到自己的内容池中。   再说多样性。内容池在各个主体上分布一定是不均衡的,某些热门的主题会内容较多,而某些冷门的主题会内容较少。这也需要人工干预多样性,适当帮助补充一些冷门主题的内容池。   精筛池   内容池构建机制到目前,已经可以上线使用了。但是这其中无论是大池、粗筛池、细筛池,所依赖的模型还是离线构建的,调整起来有一定的延迟,在实时场景下我们应该考虑更及时的动态筛选。   因为我们要关心很多诸如这样的问题:当内容池上线被用户看到后,到底效果如何?低效的如何实时被淘汰

文档评论(0)

jixujianchi + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档