候选集信息主要指各种打分.PDFVIP

  • 1
  • 0
  • 约4.18千字
  • 约 5页
  • 2018-12-18 发布于天津
  • 举报
候选集信息主要指各种打分.PDF

候选集信息主要指各种打分 在电商任务中,候选集信息主要是候选集的全部打分。为说明这一点, 我们不妨先把问题设定在最理想的环境下,有如下几点假设。 (1 )强化学习中的折扣系数为0 ,单个流量最优化就是全流量最优化。 (2 )具备优化目标相关的全部因素,比如优化目标是 RPM ,我们有每 个广告的预估CTR 和BID 。 (3 )所有的预估值都是准确的,例如CTR 和BID 完全准确。 (4 )从因素到优化目标的建模是准确的,例如输入三个广告的顺序和相 应的预估CTR 、BID 值,建模能计算出准确的RPM 收益(甚至已经考虑了 三个广告的相互影响)。 在理想的环境下,我们不需要引入除候选集的全部打分外的任何信息, 只需穷举广告三元组即可。 把假设条件稍微放松,如预估值或者优化目标建模有瑕疵,我们可以利 用强化学习主动探索和对标真实奖赏的特性进行修正。 只有当一些假设严重失真的时候,我们才需要引入候选集的全部打分以 外的信息,比如: (1 )当折扣系数大于0 时,这意味着单流量最优化,并非全流量最优化, 而候选集的全部打分只能做到单流量最优化,所以必然引入额外信息; (2 )优化目标相关因素不完备和部分预估值不准确,这二者其实有一定 的重叠,它们都要求引入额外信息修正用户的点击、购买估计。 用一个简单的例子说明以上表述的道理。 开学初,老师说期末考题都在教材范围以内,熟练掌握教材就能得到满 分。后来老师说,教材内容有错误,熟练掌握教材得 90 分还是有可能的, 想得满分要同时参考教材勘误表。再后来老师又说,期末考题不限于教材范 96 围,只看教材最多考70 分,想得满分要另外参考一本国外教材。 候选集的全部打分其实就是教材,教材(候选集的全部打分)是考试(决 策)考高分(获得最优奖赏)的基础,其他资料(如用户最近的行为偏好) 是教材的纠正或补充。 候选集打分具有自然转移的用户状态 我们已经说明候选集信息必须引入,且候选集全部打分就是用于决策进 而优化奖赏的一类重要信息,那么它是一个转移的状态么?答案是肯定的。 候选集的商品构成是召回系统根据用户最近状态挑选出来的,候选集的 打分是排序模块根据用户最近的状态和广告自身信息计算出来的,所以候选 集的全部打分完全可以被视为对当前用户状态的一种凝练。对于用户相邻两 次的到访业务场景,候选集的构成和打分都会发生变化,这就是一个自然 的转移过程。 综上所述,我们主要从逻辑分析角度解释了对状态的选择,其实还可以 从建模角度理解。我们可以将在动作网络中使用预估值作为状态类比成使用 没有端到端训练的Embedding ,如图6.2 所示。 图 6.2 预估值是动作网络的 Embedding 输入 第 6 章 组合优化视角下基于强化学习的精准定向广告 OCPC 业务优化 97 建模粒度 在建模粒度这个问题上,我们关心的是,应该将候选集的全部打分整体 输入一个网络中,还是将每个广告的打分信息分别输入一个共享参数的网络 中。我们称前者为session 粒度建模,称后者为ad 粒度建模。 对于这个问题我们并不陌生,ad 粒度建模就是在 CTR 预估中的一般做 法。那么,为什么几乎没有见到过 session 粒度建模的预估方案呢?一个重 要原因是,用监督学习直接建模组合

文档评论(0)

1亿VIP精品文档

相关文档