关于2015阿里移动推荐算法大赛总结.docxVIP

下载本文档

29
0
约1.95万字
约 34页
2017-08-16 发布于重庆
举报
版权申诉

关于2015阿里移动推荐算法大赛总结.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

关于2015阿里移动推荐算法大赛总结

关于2015阿里移动推荐算法大赛的总结（一）写在最前面，第一场比赛的第一轮早已结束，lz组的团队已被淘汰~跟lz组队的人跟lz一样也是新手菜鸟，参加比赛只是兴趣与好奇。现在第二场比赛开始了，lz还会继续玩下去（虽然lz校内科研、项目压力都很大）~官方给了两个集合表——用户在商品全集上的移动端行为数据表和商品子集表。行为数据里面分别有用户名、商品名、行为类型（浏览、收藏、加购物车、购买）、地理位置、商品类别、行为时间。商品子集里面有商品名、商品类别、地理位置。题目是根据官方给的一个月的用户行为数据，预测这个月过完的第一天在商品子集中用户可能购买的商品。评分使用的是正确率与召回率的加权。首先，我们想到的是根据行为的统计特征进行购买的预测，简单的说就是假如用户加入购物车，那么购买的可能性就很大，收藏，浏览产生购买行为的可能性递减。同时还有地理位置这组信息，从经验判断，地理位置相近购买可能性也越大，在武汉的童鞋一般不会买杭州的电影票或者餐券吧。（这里要说明下，因为是移动端行为数据，很大一部分是类似电影票、门票、代金券、外卖等等商品，当然也肯定会有我们熟知的淘宝物品。）还有一点，很显然商品子集里的商品是行为数据表中商品的子集（也就是说假如购买了pad，会继续购买个pad套，而这个pad套在子集里，pad只在行为数据表里，需要寻找出这样一种规律）。初期，我们把侧重点放在题目的“推荐”两个字上了，搜集并研究了大量的“推荐算法”，然后也分析整理出了一套模型，但是在最后要得出结果那一步发现，根本不是题目要的结果。题目要的就是在那一天用户会购买那些商品，而不是用户可能对那些商品感兴趣。这样我们就推翻了我们的这条路，当然我们自己在这条“黑路”上也学到了不少，后面我会单独总结整理一下，我们关于“推荐算法”的种种。后来，看了一些官方给的建议。我们才明确，简单的说我们要做就是二分法的预测，买还是不买。然后我们就想到对用户行为抽象为特征向量，利用时间划分数据，使用机器学习的方法训练模型，对某一天的购买行为进行预测。我们在这方面也是从开始学习，到做了一些工作，分析总结。虽然最后的结果还是差强人意，最终是948名，但是中间有最好排名303过（最终取前500进入第二轮）。关于这部分的工作，后面我也会单独总结整理的。这里就先开个总结的头，逼自己把做过的东西整理出来~~~关于2015阿里移动推荐算法大赛的总结（二）——推荐算法虽然开始走错了路，但是也学到了东西，美团技术团队的文档还是不错的，喜欢的童鞋可以经常去瞅瞅，后面我会给链接的~~~~——————————————————————————————————————————————————————————————具体流程基本流程如下，借用美团的图。从框架的角度看，推荐系统基本可以分为数据层、触发层、融合过滤层和排序层。数据层包括数据生成和数据存储，主要是利用各种数据处理工具对原始日志进行清洗，处理成格式化的数据，落地到不同类型的存储系统中，供下游的算法和模型使用。候选集触发层主要是从用户的历史行为、实时行为、地理位置等角度利用各种触发策略产生推荐的候选集。候选集融合和过滤层有两个功能，一是对出发层产生的不同候选集进行融合，提高推荐策略的覆盖度和精度；另外还要承担一定的过滤职责，从产品、运营的角度确定一些人工规则，过滤掉不符合条件的item。排序层主要是利用机器学习的模型对触发层筛选出来的候选集进行重排序。在这次比赛中相当于给了数据，不需要考虑数据产生，有可能要考虑存储，暂时先不考虑。所以大体流程是先对数据进行分析，然后对数据进行预处理，进入候选集触发环节，考虑采用协同过滤与位置聚类的方法推荐出集合，然后通过机器学习的方法训练得出最终结果。理论分析数据应用行为类别行为详情主动行为数据搜索、筛选、点击、收藏、下单、支付、评分UGC文本评价、上传图片负反馈数据左滑删除、取消收藏、取消订单、退款、负评、低评用户画像用户人口属性、美团DNA、品类偏好、消费水平、工作地与居住地用户主动行为数据记录了用户在美团平台上不同的环节的各种行为，这些行为一方面用于候选集触发算法（在下一部分介绍）中的离线计算（主要是浏览、下单），另外一方面，这些行为代表的意图的强弱不同，因此在训练重排序模型时可以针对不同的行为设定不同的回归目标值，以更细地刻画用户的行为强弱程度。此外，用户对deal的这些行为还可以作为重排序模型的交叉特征，用于模型的离线训练和在线预测。负反馈数据反映了当前的结果可能在某些方面不能满足用户的需求，因此在后续的候选集触发过程中需要考虑对特定的因素进行过滤或者降权，降低负面因素再次出现的几率，提高用户体验；同时在重排序的模型训练中，负反馈数据可以作为不可多得的负例参与模型训练，这些负例要比那些展示后未点击、未下单的样本显著的多。