- 1
- 0
- 约4.18千字
- 约 5页
- 2018-12-18 发布于天津
- 举报
候选集信息主要指各种打分.PDF
候选集信息主要指各种打分
在电商任务中,候选集信息主要是候选集的全部打分。为说明这一点,
我们不妨先把问题设定在最理想的环境下,有如下几点假设。
(1 )强化学习中的折扣系数为0 ,单个流量最优化就是全流量最优化。
(2 )具备优化目标相关的全部因素,比如优化目标是 RPM ,我们有每
个广告的预估CTR 和BID 。
(3 )所有的预估值都是准确的,例如CTR 和BID 完全准确。
(4 )从因素到优化目标的建模是准确的,例如输入三个广告的顺序和相
应的预估CTR 、BID 值,建模能计算出准确的RPM 收益(甚至已经考虑了
三个广告的相互影响)。
在理想的环境下,我们不需要引入除候选集的全部打分外的任何信息,
只需穷举广告三元组即可。
把假设条件稍微放松,如预估值或者优化目标建模有瑕疵,我们可以利
用强化学习主动探索和对标真实奖赏的特性进行修正。
只有当一些假设严重失真的时候,我们才需要引入候选集的全部打分以
外的信息,比如:
(1 )当折扣系数大于0 时,这意味着单流量最优化,并非全流量最优化,
而候选集的全部打分只能做到单流量最优化,所以必然引入额外信息;
(2 )优化目标相关因素不完备和部分预估值不准确,这二者其实有一定
的重叠,它们都要求引入额外信息修正用户的点击、购买估计。
用一个简单的例子说明以上表述的道理。
开学初,老师说期末考题都在教材范围以内,熟练掌握教材就能得到满
分。后来老师说,教材内容有错误,熟练掌握教材得 90 分还是有可能的,
想得满分要同时参考教材勘误表。再后来老师又说,期末考题不限于教材范
96
围,只看教材最多考70 分,想得满分要另外参考一本国外教材。
候选集的全部打分其实就是教材,教材(候选集的全部打分)是考试(决
策)考高分(获得最优奖赏)的基础,其他资料(如用户最近的行为偏好)
是教材的纠正或补充。
候选集打分具有自然转移的用户状态
我们已经说明候选集信息必须引入,且候选集全部打分就是用于决策进
而优化奖赏的一类重要信息,那么它是一个转移的状态么?答案是肯定的。
候选集的商品构成是召回系统根据用户最近状态挑选出来的,候选集的
打分是排序模块根据用户最近的状态和广告自身信息计算出来的,所以候选
集的全部打分完全可以被视为对当前用户状态的一种凝练。对于用户相邻两
次的到访业务场景,候选集的构成和打分都会发生变化,这就是一个自然
的转移过程。
综上所述,我们主要从逻辑分析角度解释了对状态的选择,其实还可以
从建模角度理解。我们可以将在动作网络中使用预估值作为状态类比成使用
没有端到端训练的Embedding ,如图6.2 所示。
图 6.2 预估值是动作网络的 Embedding 输入
第 6 章 组合优化视角下基于强化学习的精准定向广告 OCPC 业务优化 97
建模粒度
在建模粒度这个问题上,我们关心的是,应该将候选集的全部打分整体
输入一个网络中,还是将每个广告的打分信息分别输入一个共享参数的网络
中。我们称前者为session 粒度建模,称后者为ad 粒度建模。
对于这个问题我们并不陌生,ad 粒度建模就是在 CTR 预估中的一般做
法。那么,为什么几乎没有见到过 session 粒度建模的预估方案呢?一个重
要原因是,用监督学习直接建模组合
原创力文档

文档评论(0)