强化学习在电商环境下的若应与研究-51CTOcom.PDF

强化学习在电商环境下的若应与研究-51CTOcom.PDF

强化学习在电商环境下的若⼲应⽤与研究 December25,2017 背景 随着搜索技术的持续发展,我们已经逐渐意识到监督学习算法在搜索场景的局 限性: • 搜索场景中,只有被当前投放策略排到前⾯的商品,才会获得曝光机会, 从⽽形成监督学习的正负样本,⽽曝光出来的商品,只占总的召回商品中 的很⼩⼀部分,训练样本是⾼度受当前模型的bias影响的。 • 监督学习的损失函数,和业务关注的指标之间,存在着不⼀致性 • ⽤户的搜索、点击、购买⾏为,是⼀个连续的序列决策过程,监督模型⽆ 法对这个过程进⾏建模,⽆法优化长期累积奖赏。 与此同时,强化学习的深度学习化,以及以Atari游戏和围棋游戏为代表的应⽤ 在近⼏年得到了空前的发展,使得我们开始着眼于这项古⽼⽽又时尚的技术, 并以此为⼀条重要的技术发展路线,陆陆续续地在多个业务和场景,进⾏了强 化学习建模,取得了⼀些初步成果,相关的⼯作已经在整理发表中。同时我们 也深知,⽬前强化学习的算法理论上限和⼯业界中⼤规模噪声数据之间,还存 在着很⼤的gap,需要有更多的智慧去填补。 基于强化学习的实时搜索排序调控 背景 淘宝的搜索引擎涉及对上亿商品的毫秒级处理响应,⽽淘宝的⽤户不仅数量巨 ⼤,其⾏为特点以及对商品的偏好也具有丰富性和多样性。因此,要让搜索引 擎对不同特点的⽤户作出针对性的排序,并以此带动搜索引导的成交提升,是 ⼀个极具挑战性的问题。传统的LearningtoRank(LTR)⽅法主要是在商品维 度进⾏学习,根据商品的点击、成交数据构造学习样本,回归出排序权重。尽 管ContextualLTR⽅法可以根据⽤户的上下⽂信息对不同的⽤户给出不同的排 序结果,但它没有考虑到⽤户搜索商品是⼀个连续的过程。这⼀连续过程的不 同阶段之间不是孤⽴的,⽽是有着紧密的联系。换句话说,⽤户最终选择购买 或不够买商品,不是由某⼀次排序所决定,⽽是⼀连串搜索排序的结果。 实际上,如果把搜索引擎看作智能体(Agent)、把⽤户看做环境(Envi- ronment),则商品的搜索问题可以被视为典型的顺序决策问题(Sequential 1 Decision-makingProblem):(1)在⽤户每⼀次请求PV时,Agent做出相应的 排序决策,将商品展⽰给⽤户;(2)⽤户根据Agent的排序结果,给出点击、 翻页等反馈信号;(3)Agent接收反馈信号,在新的PV请求时做出新的排序决 策;(4)这样的过程将⼀直持续下去,直到⽤户购买商品或者退出搜索。以前 向视⾓(ForwardView)来看,⽤户在每个PV中的上下⽂状态与之前所有PV中 的上下⽂状态和Agent的⾏为有着必然因果关系,同⼀个PV中Agent采取的不同 排序策略将使得搜索过程朝不同的⽅向演进;反过来,以后向视⾓(Backward View)来看,在遇到相同的上下⽂状态时,Agent就可以根据历史演进的结果对 排序策略进⾏调整,将⽤户引导到更有利于成交的PV中去。Agent每⼀次策略 的选择可以看成⼀次试错(Trial-and-Error),在这种反复不断地试错过程中, Agent将逐步学习到最优的排序策略。⽽这种在与环境交互的过程中进⾏试错的 学习,正是强化学习(ReinforcementLearning,RL)的根本思想。 强化学习最早可以追溯到巴甫洛夫的条件反射实验,它从动物⾏为研究和 优化控制两个领域独⽴发展,最终经Bellman之⼿将其抽象为马尔可夫决策过程 (MarkovDecisionProcess,MDP)问题⽽完成形式化。对于环境反馈的有利奖 赏,Agent将强化引发这种奖赏的动作,并在以后与环境交互的过程中更偏向于 执⾏该动作。我们尝试将强化学习⽅法引⼊商品的搜索排序中,以优化⽤户在 整个搜索过程中的收益为⽬标,根据⽤户实时⾏为反馈进⾏学习,实现商品排 序的实时调控。图1⽐较直观地展⽰了的⽤强化学习来优化搜索排序的过程。 如图所⽰,在三次PV请求之间,Agent做出了两次排序决策( 和 ),从⽽ 引导了两次PV展⽰。从效果上来看, 对应PV中并没有发⽣商品点击,⽽ 对

文档评论(0)

1亿VIP精品文档

相关文档