- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
标签关系的生成 标签数据新特点 字面形态丰富 语义类别决定语义关系 品牌 品类 描述 属性 让用户定义,我们“学习” Svm Ranking svm 训练数据 相关 or 不相关 主观性比较强 Learning to rank 小清新、公主欧式 大于 小清新, 韩版发饰 小清新、公主欧式 大于 小清新, 电动车电瓶 标签对 特征选取 字面特征 编辑距离 语义特征 Lda 语义空间相似度 包含词性 等等 业务特征 卖家、买家、类目重合等 Ranking svm 效果评测 测试集准确率~75% 标签市场化 --- 分析总结 用户是标签创新的源泉 带给算法的挑战 类别与关系不可定义 “学习”相关性 依赖于细粒度标签 未来的规划 解决入口问题 标签个性化 场景自发现(结合可视化) Thank you !QA 广告---上“来往” 技术 业务 最后的感谢 TPIF(商品知识图谱) 君峰、江燕、全才、彩虹、月颖、家清、文渊 淘宝行业市场算法团队 … 规则实验室 … 弥补增长的跨度 两种方式:简单匹配,为了丰富标签需要进一步进行语意打标 出汗季活动的启发: 卖家真正了解自己的商品和受众,真的富有创造力,应该直接作为标签的生产端的主力军 标签生成与推荐在淘宝导购中的应用 共享业务平台-伯隅 内容概要 背景介绍 探索详解 未来之路 背景介绍 淘宝购物方式 关键词搜索 类目浏览 商品的增长 购物方式的改变 关键词搜索 0.27%词与PV50% 几十亿商品争夺出场机会 买卖成本 基于类目导购方式 流量入口的限制 类目数量 商品 成交 标签:另一种流量入口 新的商品组织方式 缓解流量的长尾 重新组织节点- 重新组织商品 探索--- 自动抽取 需要解决的问题 标签从哪里来 如何关联商品 如何组织商品 可控的思维 定义标签语义类别 定义标签关系 标签定义 类别定义 B品牌 P品类 T描述 A属性 品类词指某一类商品的统称,如:七分裤、爽肤水、t恤、牛仔裤、洗发水等等。 属性词指淘宝后台类目下的属性项名称,如: “品牌”、“型号”、“风格”、“款式”等。 描述词指描述商品的物理意义或者感性意义的词汇:“性感”,“甜美”,“麻辣”等。 标签数据源 标题 结构化数据 详情页 流量入口 关键信息 信息规整 内容丰富 产品词挖掘 标题中找产品词 相对专业、演化频率高 转化未登录词的识别问题 标题中字词有具有序列规律 标注序列的过程 --- 使用CRF模型 产品词挖掘 标题中的产品词 未登入词的识别 CRF模型 产品词标记 备注 S-PRO 单字产品词 B-PRO 产品词首字 … … E-PRO 产品词尾字 O 非产品词的字 标注数据 商品标题 核心词库 模板 新词 增加30%+ 品牌词挖掘 开放的结构化数据 小二管控 开放输入 数据净化 品牌库 描述词整理 描述词概要 结构化词量占比小 语义丰富 问题 归一 语义层次整理 大码女装、 加大码、 加肥加大 甜美 荷叶边 泡泡袖 娃娃领 描述词整理 Topic model + 人工整理沉淀 LDA模型: 随即抽取女装20w商品 主题数在50~300个 输出标注: [ 娃领:22.994, 甜美:5.411, 公主:4.56, 复古:4.016, 可爱:3.8, 蕾丝:3.068 ] [中老年:28.43, 妈妈装:24.146, 中老年女装:17.791, 中年:17.23, 妈妈:13.026, 中年女装:12.909, 其它图案:3.93, 开衫:3.077, ] [清仓:9.345, 特价:7.548, 促销:7.115, 正品:3.648, ] [大码女装:10.974, 加大码:9.802, 潮人:7.293, 加肥加大:6.813, 平米:5.126, 大码:4.235, ] 标签关联商品 商品信息 知识库 (同义,层次) 描述词整理 标签词库 单个商品包含的标签 匹配 分类模型 关系定义 四种类别15种关系 网状关系的定义 — 关系列举 iphone的品牌是苹果 夜店和露背经常修饰同一件商品 裹胸是婚纱的一种主打样式 森女是一种风格 小清新的代表性品牌是hello kitty 可以把手机和手机壳搭配来购买 对围巾感兴趣的人,也对丝绸感兴趣 目前家具摆件品类中的桃木剑很畅销 佛珠手链是一种流行饰品 关系类型 产品- 品牌 描述- 描述 描述- 属性 描述 – 属性 描述 – 品牌 产品 - 产品 产品 –产品 产品 – 产品 关系挖掘 异类类别 互信息与阈值 t-检验 同类类别 协同过滤 ? ~ t(n-1) 描述词协同过滤的算法 机器标签---场景导购 探索一 ---分析总结 人工方式+自动扩展 词源不够丰富
文档评论(0)