强化学习在电商环境下的若应与研究-51CTOcom.PDF

下载文档 降价啦

6
0
约5.73万字
约 38页
2019-03-22 发布于天津
举报
保障服务

强化学习在电商环境下的若应与研究-51CTOcom.PDF

强化学习在电商环境下的若⼲应⽤与研究 December25,2017 背景随着搜索技术的持续发展，我们已经逐渐意识到监督学习算法在搜索场景的局限性： • 搜索场景中，只有被当前投放策略排到前⾯的商品，才会获得曝光机会，从⽽形成监督学习的正负样本，⽽曝光出来的商品，只占总的召回商品中的很⼩⼀部分，训练样本是⾼度受当前模型的bias影响的。 • 监督学习的损失函数，和业务关注的指标之间，存在着不⼀致性 • ⽤户的搜索、点击、购买⾏为，是⼀个连续的序列决策过程，监督模型⽆法对这个过程进⾏建模，⽆法优化长期累积奖赏。与此同时，强化学习的深度学习化，以及以Atari游戏和围棋游戏为代表的应⽤在近⼏年得到了空前的发展，使得我们开始着眼于这项古⽼⽽又时尚的技术，并以此为⼀条重要的技术发展路线，陆陆续续地在多个业务和场景，进⾏了强化学习建模，取得了⼀些初步成果，相关的⼯作已经在整理发表中。同时我们也深知，⽬前强化学习的算法理论上限和⼯业界中⼤规模噪声数据之间，还存在着很⼤的gap，需要有更多的智慧去填补。基于强化学习的实时搜索排序调控背景淘宝的搜索引擎涉及对上亿商品的毫秒级处理响应，⽽淘宝的⽤户不仅数量巨⼤，其⾏为特点以及对商品的偏好也具有丰富性和多样性。因此，要让搜索引擎对不同特点的⽤户作出针对性的排序，并以此带动搜索引导的成交提升，是⼀个极具挑战性的问题。传统的LearningtoRank（LTR）⽅法主要是在商品维度进⾏学习，根据商品的点击、成交数据构造学习样本，回归出排序权重。尽管ContextualLTR⽅法可以根据⽤户的上下⽂信息对不同的⽤户给出不同的排序结果，但它没有考虑到⽤户搜索商品是⼀个连续的过程。这⼀连续过程的不同阶段之间不是孤⽴的，⽽是有着紧密的联系。换句话说，⽤户最终选择购买或不够买商品，不是由某⼀次排序所决定，⽽是⼀连串搜索排序的结果。实际上，如果把搜索引擎看作智能体（Agent）、把⽤户看做环境（Envi- ronment），则商品的搜索问题可以被视为典型的顺序决策问题（Sequential 1 Decision-makingProblem）：（1）在⽤户每⼀次请求PV时，Agent做出相应的排序决策，将商品展⽰给⽤户；（2）⽤户根据Agent的排序结果，给出点击、翻页等反馈信号；（3）Agent接收反馈信号，在新的PV请求时做出新的排序决策；（4）这样的过程将⼀直持续下去，直到⽤户购买商品或者退出搜索。以前向视⾓（ForwardView）来看，⽤户在每个PV中的上下⽂状态与之前所有PV中的上下⽂状态和Agent的⾏为有着必然因果关系，同⼀个PV中Agent采取的不同排序策略将使得搜索过程朝不同的⽅向演进；反过来，以后向视⾓（Backward View）来看，在遇到相同的上下⽂状态时，Agent就可以根据历史演进的结果对排序策略进⾏调整，将⽤户引导到更有利于成交的PV中去。Agent每⼀次策略的选择可以看成⼀次试错（Trial-and-Error），在这种反复不断地试错过程中， Agent将逐步学习到最优的排序策略。⽽这种在与环境交互的过程中进⾏试错的学习，正是强化学习（ReinforcementLearning，RL）的根本思想。强化学习最早可以追溯到巴甫洛夫的条件反射实验，它从动物⾏为研究和优化控制两个领域独⽴发展，最终经Bellman之⼿将其抽象为马尔可夫决策过程（MarkovDecisionProcess，MDP）问题⽽完成形式化。对于环境反馈的有利奖赏，Agent将强化引发这种奖赏的动作，并在以后与环境交互的过程中更偏向于执⾏该动作。我们尝试将强化学习⽅法引⼊商品的搜索排序中，以优化⽤户在整个搜索过程中的收益为⽬标，根据⽤户实时⾏为反馈进⾏学习，实现商品排序的实时调控。图1⽐较直观地展⽰了的⽤强化学习来优化搜索排序的过程。如图所⽰，在三次PV请求之间，Agent做出了两次排序决策（和），从⽽引导了两次PV展⽰。从效果上来看，对应PV中并没有发⽣商品点击，⽽对

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

强化学习在电商环境下的若应与研究-51CTOcom.PDF