强化学习在电商环境下的若干应用与研究-51CTOcom.PDFVIP

下载本文档

30
0
约5.37万字
约 43页
2018-02-02 发布于天津
举报
版权申诉

强化学习在电商环境下的若干应用与研究-51CTOcom.PDF

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

强化学习在电商环境下的若干应用与研究-51CTOcom

强化学习在电商环境下的若干应用与研究背景随着搜索技术的持续发展，我们已经逐渐意识到监督学习算法在搜索场景的局限性： • 搜索场景中，只有被当前投放策略排到前面的商品，才会获得曝光机会，从而形成监督学习的正负样本，而曝光出来的商品，只占总的召回商品中的很小一部分，训练样本是高度受当前模型的bias 影响的。 • 监督学习的损失函数，和业务关注的指标之间，存在着不一致性 • 用户的搜索、点击、购买行为，是一个连续的序列决策过程，监督模型无法对这个过程进行建模，无法优化长期累积奖赏。与此同时，强化学习的深度学习化，以及以Atari 游戏和围棋游戏为代表的应用在近几年得到了空前的发展，使得我们开始着眼于这项古老而又时尚的技术，并以此为一条重要的技术发展路线，陆陆续续地在多个业务和场景，进行了强化学习建模，取得了一些初步成果，相关的工作已经在整理发表中。同时我们也深知，目前强化学习的算法理论上限和工业界中大规模噪声数据之间，还存在着很大的gap，需要有更多的智慧去填补。基于强化学习的实时搜索排序调控背景淘宝的搜索引擎涉及对上亿商品的毫秒级处理响应，而淘宝的用户不仅数量巨大，其行为特点以及对商品的偏好也具有丰富性和多样性。因此，要让搜索引擎对不同特点的用户作出针对性的排序，并以此带动搜索引导的成交升，是一个极具挑战性的问题。传统的Learning to Rank （LTR ）方法主要是在商品维度进行学习，根据商品的点击、成交数据构造学习样本，回归出排序权重。尽管Contextual LTR 方法可以根据用户的上下文信息对不同的用户给出不同的排序结果，但它没有考虑到用户搜索商品是一个连续的过程。这一连续过程的不同阶段之间不是孤立的，而是有着紧密的联系。换句话说，用户最终选择购买或不够买商品，不是由某一次排序所决定，而是一连串搜索排序的结果。实际上，如果把搜索引擎看作智能体（Agent ）、把用户看做环境（Environment ），则商品的搜索问题可以被视为典型的顺序决策问题（Sequential Decision-making Problem ）：（1）在用户每一次请求PV 时，Agent 做出相应的排序决策，将商品展示给用户；（2）用户根据Agent 的排序结果，给出点击、翻页等反馈信号；（3）Agent 接收反馈信号，在新的PV 请求时做出新的排序决策；（4 ）这样的过程将一直持续下去，直到用户购买商品或者退出搜索。以前向视角（Forward View ）来看，用户在每个PV 中的上下文状态与之前所有 PV 中的上下文状态和Agent 的行为有着必然因果关系，同一个PV 中Agent 采取的不同排序策略将使得搜索过程朝不同的方向演进；反过来，以后向视角（Backward View ）来看，在遇到相同的上下文状态时，Agent 就可以根据历史演进的结果对排序策略进行调整，将用户引导到更有利于成交的PV 中去。Agent 每一次策略的选择可以看成一次试错（Trial-and-Error ），在这种反复不断地试错过程中，Agent 将逐步学习到最优的排序策略。而这种在与环境交互的过程中进行试错的学习，正是强化学习（Reinforcement Learning，RL ）的根本思想。强化学习最早可以追溯到巴甫洛夫的条件反射实验，它从动物行为研究和优化控制两个领域独立发展，最终经Bellman 之手将其抽象为马尔可夫决策过程（Markov Decision Process，MDP ）问题而完成形式化。对于环境反馈的有利奖赏，Agent 将强化引发这种奖赏的动作，并在以后与环境交互的过程中更偏向于执行该动作。我们尝试将强化学习方法引入商品的搜索排序中，以优化用户在整个搜索过程中的收益为目标，根据用户实时行为反馈进行学习，实现商品排序的实时调控。图1 比较直观地展示了的用强化学习来优化搜索排序的过程。如图所示，在三次PV 请求之间，Agent 做出了两次排序决策（和），从而引导了两次PV 展示。从效果上来看，对应PV 中并没有发生商品点击，而对应PV 上发生了3 次商品点击。如果将商品点击看成是对排序策略的反馈信号，那么Agent 第二次执行