机器学习在搜索排序中的应用.pptxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

机器学习在搜索排序中的应用一淘及搜索事业部-搜索技术仁重

agenda背景LTR方法评估并行化与多目标

LTR在淘宝搜索应用的背景第一部分背景

背景用户输入Query引擎召回商品商品计算featureRank

项目背景-特征相关性购买转化率(GDBT)点击转化率(LR)二跳率(LR)反作弊商业业务逻辑预估模型规则个性化(LR、GDBT)图片质量(SVM)?通过线性模型来组合非线性的特征计算效率高可解释性好

如何确定各个特征的权重W能否不同的类目给出不同的权重W如何为新加入的特征设置权重W如何在不同的系统中快速的迁移特征之前用ABTest,现在使用LTRLearningToRank,使用机器学习的方法来进行排序优化。背景问题

LTR应用的方法第三部分方法

转化为pairwise问题把整体的排序问题转换为商品对好坏问题两个商品哪个更好CtrCvr价格VS

人工标注(工作量巨大)商品Ctr商品转化率详情页浏览时间样本选择 优化目标与样本

论文中使用的样本选择样本选择单次pv点击位置ClickSkipAboveLastClickSkipAboveClickEarlierClickLastClickSkipPreviousClickNo-ClickNextfAfBfCfDfEfA=w*xAfB=w*xBfC=w*xCfD=w*xDfE=w*xE

整体统计ctr样本选择ACtr:1CCtr:0.1BCtr:0.5DCtr:0.1ECtr:0.6AEBC=DAEABACADEBECEDBCBD相同Query统计商品ctr来生成pairctr差值需要有一定置信度没有位置信息相同query

ctr单次PV样本选择B整体Ctr:0.5A整体Ctr:1C整体Ctr:0.1D整体Ctr:0.1E整体Ctr:0.6AEABACADEBECEDBCBD计算特征值需要还原到单次PV下具体的用户以及当前环境通过规则过滤掉其中的噪音购买点击无行为B产生了购买行为,D产生了点击行为

优化目标与样本避免样本选取的偏差Pvlog特征分布(人气,卖家,文本)100亿数据训练样本分布(人气,卖家,文本)千万训练样本

样本特征分析logo特征分布不好的特征进行改进对分布不合理的特征样本进行按比例抽样

样本特征分析特征与目标值的关系相关性差相关性好

无点击样本选择保持权重的一定程度稳定性无点击数据在现有排序下对Topquery没有点击的数据,前30与后30形成pair,随机抽取按不同比例混合无点击与Ctr样本约50%的无点击样本无点击样本训练后的权重反映线上使用权重w

模型优化调整无点击与有点击比例调整抽样策略对特征值进行改进分类目的模型Query类目预测结果的行业区分训练数据手机类目的价格权重高于其他类目

RankSVM模型(一)

RankSVM模型(二)

RankSVM模型

RankSVM模型

RankSVM模型

模型评估与效果评估第三部分【评估】

baseline按线上参数计算pair准确率01按模型参数计算pair准确率02Abtest验证03模型评估

收益评估

Pvlog01按线上参数排序02按训练好的模型进行排序03CNDCG04CNDCG05NDCG收益06样本混合比例调整07模型训练08样本选择策略调整09NDCG差异query分析10抽样策略调整11模型迭代

并行化与多目标第四部分模型优化01.

0102需要解决的问题行列分割的并行SVM行分割的并行CoordinateAscent算法,用于求解NDCG为目标值的样本?内存问题训练时间过长两种基于MPI的方法并行化(一)

并行化(二)

现实应用中,需要同时解两个目标问题例如:CTR、客单价需要解决的问题Multi-lossPair-wiseLearning再ctr样本的基础上,再加上价格的label基于目标函数中,loss函数进行改造,使其兼容多种目标。方法多目标(二)

多目标(二)

@曾翔-仁重Nevertry,neverknowQA

文档评论(0)

zhang1745 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档