- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
深度神经网络在电子商务产品目录分类问题中的应用
深度神经网络在电子商务产品目录分类问题中的应用
---Ming Liu
? ? ? ?我叫刘明,来自美国ebay,我在ebay领导一个数据科学家的小团队,我们做的是很多关于目录分类、大数据上的数据挖掘和发现的一些项目,很高兴这次能够收到集团数据委员会以及集团研究中心举办的这次西湖品学大数据峰会的邀请,给大家分享我们ebay在数据研究上的一些经验,我想中间很多问题也是我们阿里的朋友们所共同关心的。
? ? ? ?首先我讲一下为什么要做目录树的分类,它的主要动机是什么?接下来我们介绍一下基本情况,目录树在ebay是什么样一个情况?用户体验是什么状态?紧接着我们线上的产品系统是一个什么样的系统,都是有什么指标?基本指标是什么情况?接下来我们介绍一下我们的发展,用深度学习来实现进一步的提高。接下来是实验结果比较和分析,最后是总结。
? ? ? ?我们知道目录树结构是一个非常重要的结构化信息,ebay很多的招贴是通过不同的卖家收集上来的,不同的卖家有不同的规格不同的关键字不同的标题,来招贴同样的商标,中间有很多是非结构性的数据,怎么样让它变成结构化是一个很关键、很核心的问题。在这些所有的结构化数据当中,目录结构化数据是最基本的,因为所有的结构化数据都是依赖于数据。比如说衣帽类的,你想象的数据可能是材质、可能是颜色、可能是尺寸,但是这个数据并不见得适用于手机这一类商品。所以所有的结构化数据,是依赖于目录树、目录库,给所有的结构化数据提供一个骨干,这样才能够构建出ebay结构化数据的知识库。所以从这个意义上讲,目录树是一个最最基本的结构化信息。
? ? ? ?因为目录树这么重要,所以ebay是需要给每个商家提供这个结构化信息。这当中就带来很多很多不方便,对于商家来讲,因为最好是什么都不需要提供就可以卖。因为这个目录树这么重要,我们又没有办法完全自动的去做标注,所以我们是要求每一个商家在创立一个产品招贴的时候,必须给我们对应的目录树,而且必须到叶结点。所以迫使得我们必须给用户提供一些方便、工具,让他们能够比较快的比较省事的把叶结点标注上。另外我们需要整合一下大的卖家,零售店想在ebay做销售的话,他也必须提供这些目录,但是因为他的商品量数目太大,可能不太合适让他们一个一个去标注,所以我们想提供一个相对自动一些的,其中的一个解决方案是从他们目录到我们ebay目录的映射,这也是我们的动机,为什么要做这样一个项目。
? ? ? ?在进入很多技术细节之前,让我们有一些感性的认识。这是我们美国ebay网站部分的目录结构,这是一个非常非常小的快照,我们当中有**个叶子结点,而且中间有很多是容易混淆的目录。比方说皮带是一个目录,皮带扣是另外一个目录。如果卖家要卖家皮带和皮带扣的话,通常他可能会随机挑一个,把这个招贴放在两个目录中的一个。这中间目录树是有一个比较容易混淆带来的,有些是卖家不是特别容易找到一个合适的、正确的叶子结点。为什么我们需要这个目录?刚才讲了目录是所有结构化数据的骨干,是提纲挈领,我们必须要有一个纲。这当中其实是一个过滤的,这其中所有的属性都是基于目录,没有目录就没法做这样一个目录体验。其次对于容易比较容易产生歧义的关键字,怎么样去区分这个歧义?在目录这个层次上去做一些聚合,把用户的行为做一些聚合,可以让我们去区分比较容易发生歧义的搜集关键字,这也是为什么我们需要一个目录。另外一个如果有大的商家在ebay上销售,他们的所有商品都必须要要录到目录树结构中去,为他们提供一个更加方便快捷的工具也是我们的重中之重。
? ? ? ?现在我们来看一看现在如果一个卖家要生成一个招贴的话,他需要怎么样来标注这个目录?他可以有两种方案,他可以通过浏览的过程,一层一层的找到他认为合适的目录树结点。像这种情况下,比如说这个卖家要卖一个皮带,所以他通过三层的目录找到了他合适的目录树结点。但并不是所有卖家都会这么运气,像这个就经过了五层,甚至最长会通过七层八层。所以通过浏览找到合适的目录树结点,基本上不太现实,这也是我们为什么要提供一个相对来讲方便一点的工具,“目录推荐”就是这样一个工具。你敲一个招贴的标题,然后我们通过一些办法找到最可能的目录树结点,通过用户销户,这时候卖家挑一个中间他认为最合适的,这样的标注的话比前面的用户体验相比更加快捷、方便,同时也减少了错误的发生。
? ? ? ?有时候还是会有问题,因为我们的目录会有混淆,这当中有几个可能都是可以的,可能他还是需要从中间随机挑选一个,这是因为目录的混淆性带来的一些困难。目前我们的系统是基于KNN的系统。KNN系统大家应该很熟悉,很简单,你把输入的贴,标题再加上一些属性,作为一个查询的雷达,查询的数据点,我们找一下相似的数据点,找已经知道的数据库里面相似的数据点。因为已经知道的库,是所有的已经标注的目录树结
您可能关注的文档
最近下载
- DLT-612-2017-电力行业锅炉压力容器安全监督规程.pdf
- 北师大版九年级数学下册教案(完整版)全册教学设计.doc
- 2023-2024学年下学期《形势与政策》学习通超星期末考试答案章节答案2024年.docx
- 2021至2022学年上学期中学化学沪教版期中考题之电解水实验(有答案与解析).pdf
- 龙王池尾矿库回采和利用项目(闪星锑业公司)环境影响报告.pdf
- 山东玻纤:首次公开发行股票招股说明书摘要.docx
- 东风本田-享域(ENVIX)-产品使用说明书-享域(ENVIX)乐享版-DHW7103FSCSF-享域(ENVIX)用户手册(2019款).pdf
- 江苏-南京市 2023-2024学年六年级英语上学期期末真题汇编卷 (含答案解析).docx VIP
- 2024年软件资格考试软件设计师(中级)(基础知识、应用技术)合卷试题及解答参考.docx VIP
- 急性心肌梗死合并心原性休克诊断和治疗专家共识(2021版)解读.pptx
文档评论(0)