机器学习在电商搜索平台中实践.pptx

  1. 1、本文档共45页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
机器学习在苏宁易购搜索平台中实践TABLE OFCONTENTS大纲苏宁易购搜索介绍搜索排序&影响排序内容如何利用机器学习解决搜索问题总结与思考搜索产品范围一:从苏宁易购搜索到全产业化搜索 二:从检索引擎到平台化搜索三:从单一数据结构到多样异构数据整合搜索总体架构一重:点q部u分er:y 分析二:知识图 谱三:排序四:机器学 习搜索介绍-搜索交互演变一:关键词检 索,基于文本相 似度二:图片搜索, 基于图像特征相 似度三:基于自然语 言召回(成份识 别,主成份提 取、关系推导)图像关键词?自然语?言搜索排序&影响排序内容如何治理?一、LTR->个性化排序->74% 左右的转化(正向优化)二、还有什么影响用户排序?用户query理解深度异常流量对排序影响商品错放,图文不一致对排序影响(逆向优化)搜索整体排序在线离线predictparametersTrain& ModelFeatureHDFS& hbase用户特征商品特征用户商品交叉特征引擎排序模块批量学习(天级别)商品倒 特征正排 排批量学习(小时级别)KAFKA召回结果APP/WAP/PC等各个终端排序实时学习KAFKA用户反馈1:在线参数更更新基于FTRL搜索排序方案-工程Task1Task2Task3Task4Task…… 多任务学习工程特点:1:共享表 示层2:多任务 学习(个性 化排序、相 关词挖掘、 类目关系挖 掘等….)concatequery embeddinguser profile embeddingitem embeddingcross feature embedding表示层Query类 意目 图预 预 成测 测 份User profile品 品 购牌 类 买偏 偏 力好 好Item类 统 文目 计 本属 值 内性 容Cross feature交 匹叉 配统 信计 息Query输入层搜索排序历程特点:1:基于机器学习排序,作为基础排序 2:在机器学习上层采取个性化因子加权 3:排序上做到千人千面,整体提升5-6个点特点:1:商品量大,排序因子众多,难以基于人工拟合,拟合周期 长,需要使用机器学习方式进行拟合,转化率提升至68% 左右特点:1:商品量少,排序规则简答,排序因子少,以转化率考核,可 以达58% 左右的转化个性化排序基于LT R排序基于人工规则搜索影响搜索排序内容用户query理解深度异常流量对排序影响商品错放,图文不一致对排序影响Query理解-纯文本召回文本召回问题:错误理解用户意 图影响二次排序召回内容海量,商品内容不相 关影响用户体验Query理解-关系扩展不丰富一:经验丰富商家,SEO优化丰富,召回 率高二:如何助力经验不 足商家,提升商品召 回率?异常流量影响异常行为影响刷点击商品排序刷流量平台公平刷订单搜索转化刷收藏用户体验刷加购后期机器学习作弊:一:影响排序公平性二:不真实的数据,影响用户体验三:长期不治理,影响LTR排序类目错挂,图文不一致Query深度理解成份识别类目预测&关系扩展query纠错Query分析-成份识别(基于传统CRF)苹果手机双卡双待XRNonePMCNoneNone一:标签(PMC PMB PMM NONE)每个序 列最多2个标签二:CRF模型,特征提 取相对比较繁琐,依赖 特征组合情况三:优点具备考虑隐层 标签转移概率,具有良 好的消歧能力四:不足之处,在于文 本上下文不兼备,准确 率93%基于BILSTM-CRF成分识别1:基于双向LSTM一:词映射低维空间稠密embedding 二:双向LSTM考虑文本上下文三:输出层接CRF,考虑标签转换概率CRF-LayerPMBPMMPMMPMCPmb:0.91Pmb:0.09Pmb:0.09Pmb:0.11pmm:0.05pmm:0.81pmm:0.79pmm:0.15pmc:0.04pmc:0.10pmc:0.13pmc:0.74outputBACKWARD LSTMLSTMLSTMLSTMLSTMBI-LSTMFORWARD LSTMLSTMLSTMLSTMLSTMword embedding[0.33,0.49,0.81,0.64,0.97…][0.44,0.10,0.30,0.47,0.38…][0.69,0.25,0.90,0.93,0.89…][0.69,0.91,-0.85,-0.71,0.73…]惠而浦滚筒节能洗衣机wordQuery分析-类目预测特点:1:基于query-product-catalog统计模型2:利用用户行为数据实 时修正预测3:预测类目在排序因子 加权成份识别-场景应用Query分析-关系扩展为什么要扩展?一:品类词表达多样性二:地域语言差别导致的实 体名词叫法不统一三:商家SEO过于简单,影 响商品召回四:

文档评论(0)

智慧IT + 关注
实名认证
内容提供者

微软售前技术专家持证人

生命在于奋斗,技术在于分享!

领域认证该用户于2023年09月10日上传了微软售前技术专家

1亿VIP精品文档

相关文档