候选集信息主要指各种打分.PDFVIP

下载本文档

1
0
约4.18千字
约 5页
2018-12-18 发布于天津
举报

候选集信息主要指各种打分.PDF

候选集信息主要指各种打分在电商任务中，候选集信息主要是候选集的全部打分。为说明这一点，我们不妨先把问题设定在最理想的环境下，有如下几点假设。（1 ）强化学习中的折扣系数为0 ，单个流量最优化就是全流量最优化。（2 ）具备优化目标相关的全部因素，比如优化目标是 RPM ，我们有每个广告的预估CTR 和BID 。（3 ）所有的预估值都是准确的，例如CTR 和BID 完全准确。（4 ）从因素到优化目标的建模是准确的，例如输入三个广告的顺序和相应的预估CTR 、BID 值，建模能计算出准确的RPM 收益（甚至已经考虑了三个广告的相互影响）。在理想的环境下，我们不需要引入除候选集的全部打分外的任何信息，只需穷举广告三元组即可。把假设条件稍微放松，如预估值或者优化目标建模有瑕疵，我们可以利用强化学习主动探索和对标真实奖赏的特性进行修正。只有当一些假设严重失真的时候，我们才需要引入候选集的全部打分以外的信息，比如：（1 ）当折扣系数大于0 时，这意味着单流量最优化，并非全流量最优化，而候选集的全部打分只能做到单流量最优化，所以必然引入额外信息；（2 ）优化目标相关因素不完备和部分预估值不准确，这二者其实有一定的重叠，它们都要求引入额外信息修正用户的点击、购买估计。用一个简单的例子说明以上表述的道理。开学初，老师说期末考题都在教材范围以内，熟练掌握教材就能得到满分。后来老师说，教材内容有错误，熟练掌握教材得 90 分还是有可能的，想得满分要同时参考教材勘误表。再后来老师又说，期末考题不限于教材范 96 围，只看教材最多考70 分，想得满分要另外参考一本国外教材。候选集的全部打分其实就是教材，教材（候选集的全部打分）是考试（决策）考高分（获得最优奖赏）的基础，其他资料（如用户最近的行为偏好）是教材的纠正或补充。候选集打分具有自然转移的用户状态我们已经说明候选集信息必须引入，且候选集全部打分就是用于决策进而优化奖赏的一类重要信息，那么它是一个转移的状态么？答案是肯定的。候选集的商品构成是召回系统根据用户最近状态挑选出来的，候选集的打分是排序模块根据用户最近的状态和广告自身信息计算出来的，所以候选集的全部打分完全可以被视为对当前用户状态的一种凝练。对于用户相邻两次的到访业务场景，候选集的构成和打分都会发生变化，这就是一个自然的转移过程。综上所述，我们主要从逻辑分析角度解释了对状态的选择，其实还可以从建模角度理解。我们可以将在动作网络中使用预估值作为状态类比成使用没有端到端训练的Embedding ，如图6.2 所示。图 6.2 预估值是动作网络的 Embedding 输入第 6 章组合优化视角下基于强化学习的精准定向广告 OCPC 业务优化 97 建模粒度在建模粒度这个问题上，我们关心的是，应该将候选集的全部打分整体输入一个网络中，还是将每个广告的打分信息分别输入一个共享参数的网络中。我们称前者为session 粒度建模，称后者为ad 粒度建模。对于这个问题我们并不陌生，ad 粒度建模就是在 CTR 预估中的一般做法。那么，为什么几乎没有见到过 session 粒度建模的预估方案呢？一个重要原因是，用监督学习直接建模组合

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

候选集信息主要指各种打分.PDFVIP