关于个性化推荐算法及应用场景的几点思考.docVIP

下载本文档

15
0
约2.42千字
约 6页
2018-06-21 发布于江苏
举报
版权申诉

关于个性化推荐算法及应用场景的几点思考.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

关于个性化推荐算法及应用场景的几点思考

关于个性化推荐算法及应用场景的几点思考　　最近参加了一场直播。主要讲了个性化推荐算法及应用场景。现自己总结一下主讲内容，以备自己思考。有些地方个人也不是太理解，同时也想与大家交流沟通下。　　　　一、影响推荐系统效果的主要因素　　优化目标，怎么说呢目标结果是什么，是为了用户还是为了商业目的。这两者本身是存在矛盾的，为了不同目标怎优化结果不一样。就好比用户喜欢吃瓜果蔬菜营养健康的绿色食品这样有利于健康，但我们发现让他吃大鱼大肉最赚钱。　　基于用户场景的推荐，比如说是晚上睡觉前看的，还是白天闲暇时看的，有一个时间段。再比如说上次观看的终端是什么，是移动端或者是pc端，有一个上次观看衔接的问题。还有一个就是地域问题。　　用户体验，主要是用户对于系统的信任，用户尝新的成本，是否接受的问题，怎么尝试一些好的手段让用户很贴心，很暖心，有惊喜的感觉。哎，发现推荐的都是我喜欢的，这个系统好了解我哟。具体做法举例在下文“说服用户接受这件事儿”阐述。　　直播场景的推荐（冷启动问题）　　二、推荐系统的优化目标有两类　　用户—–相关性，多样性。例如根据用户浏览过的文章的主题词，标签，热度，转载，时效，相似度等等。用户的特征性别，职业，年龄，兴趣，定期点击行为。　　平台—–商业化变现。比如说开通原创的预先推荐，或者说有内容合作的供应商优先等等因素。　　三、推荐系统的服务对象　　用户；用户是为了能够更方便找到他想看的东西　　平台本身；平台希望链接服务提供商，内容提供商和用户，他希望赚钱　　内容提供商；内容提供商更多露出，他在这个渠道上获得的无论是点击量还是品牌效应，那么他可以通过一些方法变现。无论是广告还是离线渠道的收买。　　所以一个推荐算法要同事服务三个利益不同的相关方，这本身导致了一个矛盾性。所以会有一些纠结的地方，实际上由于他们的目的不。　　四、推荐算法模型：　　协同滤波：就是相似的人给相似的内容。怎么定义相似的人呢那就是之前的行为相同。　　矩阵分解法：基本原理是把用户作为一个维度，然后建一个二维矩阵，把这个二维矩阵找到一个低纬的表示，这可能只有50或者100维，这个个数还是跟内容一样，所以每个内容有一个100维的小表示，每个用户也有一个100维的小表示。这两个作为一个点击，可以恢复出原来的东西。　　神经网络矩阵分解：基本原理把这个nade看成一个黑箱，级别让你的想法就是用nade来训练一个用户的表示和一个内容表示，但是这个表示可以不像矩阵分解那么死，因为它结合的时候不再是一代数的点程，而是基于一个神经网络，实际上带来了更多的自由度。唯一的差别就是表达能力增强了。　　五、基于用户场景的推荐，不同场景下算法选择问题　　货架场景—协调滤波，矩阵分解，CF-NADE 　　自动播放场景—用户行为轨迹　　这个用户场景比如说我在手机上看，和我在客厅里看，实际上对视频的长短还有很多内容会有不同，因为手机上有可能是在公共场合、办公室，但是在家里可能就会稍微私密一些。还有时间，假如说我手机是早上看，家里面我是晚上看，也会不一样。所以这些都叫所谓的上下文吧，就是场景信息。　　实际上就对用户做了一个切分，当用户在这个组合场景底下的时候，所借鉴的历史行为也是原来发生在这个组合底下的，这样就不会出现晚上看了什么成人动漫，早上被推一个成人动漫的情况，因为实际上把用户切成两个了。但是这样切分也是有风险的，因为有可能这个人成天都喜欢看成人动漫。所以这个会把我们本来就比较稀疏的数据变得更稀疏。　　但是发现对整个观看时长的提升以及对广告点击率的提升还是比较显著的，大概在4%左右，就是用AB测试得到的结果。　　刚才主要在讲watch，其实用户在网站上还有其他行为，像Search、Browse、浏览，还有Rating，Rating比较少一点。　　所以这几类行为实际上用户做的时候，如果把用户整个生命周期，从他sign up开始到他退订为止看成一个轨迹的话，那他做了一系列的事。　　我们现在是说对每个用户的轨迹做建模。刚才你如果想象是CF-NADE，就是说把用户所有的行为当成一些个体扔到一个大袋子里面去，然后筛一筛，说统计上是怎么样的。实际上它的时间顺序已经丢失了，里面用户具体的动态也没有考虑，如果根据用户行为做这种模型time series model其实可以达到最好的效果。　　六、说服用户接受这件事儿　　说服用户这件事，因为刚才讲得所有模型，其实最后就是一个展示，无论是用货架的方法来展示，还是用自动播放的方法来展示。但是这个展示的有效性很大程度上是取决于你有没有打动用户，要打动用户试图给出一些推荐的理由，比如我们给这个用户推了这个剧，我们会说是因为你看过他的前传，这样的话用户会觉得，你确实是有道理的。还有一个增强用户对系统的信任，如果