文本挖掘在电子务场景中的应用.pptVIP

下载本文档

3
0
约4.42千字
约 38页
2019-02-24 发布于江苏
举报
版权申诉

文本挖掘在电子务场景中的应用.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

* * * * * * * * * * * * * * * * 问答数据的全网获取宝贝详情页数据生意经、CRM等资讯、BBS等内网数据外部QA专业网站外部购物相关BBS 内网外网数据预处理单页面信息抽取多页面信息处理问答知识库人工干预 B2C网站购物问答基于Wrapper的问答知识抽取抓取数据 URL pattern过滤全文条件过滤建立抽取树结构化知识定位关键区域获取字段值过滤去噪单记录生成类目映射合并去重淘宝详情页问答知识抽取流程原始数据解压缩抽取有格式字段（类目、宝贝名）获取无格式详情建立抽取树（结构化详情文本）抽取详情页中图片链接去噪（过滤肯定不是KV的分支）找Key （文本+结构+属性+风格）后续Value（完整性并反馈找Key）黑白名单等后处理 Dump图片预处理（过滤文字占比过低） OCR 合并去重购物知识识别结构化知识文本图像挖掘到的数据量电子商务知识词库建设针对电子商务领域，赋予Term语义信息，比如产品词、品牌、型号、颜色等建立Term之间的关系，比如手机-诺基亚品牌含有哪些型号电器家用电器大家电影音电器电脑设备 … 手机数码手机诺基亚 N97 N8 E71 N85 E63 … 苹果 HTC … 数码相机随身视听电子商务知识库建设现状电子商务场景中的用户痛点海量文本挖掘在电子商务场景中的应用针对用户点评信息的挖掘和应用购物知识搜索产品中的文本挖掘构建电子商务知识词库机遇和挑战提纲机遇互联网信息正日益丰富 E.g UGC 计算能力越来越强，集群协同计算更深入实时性更强建立在用户数据积累上的对用户需求的理解挑战高质量的语义知识库从海量信息处理到海量信息的理解从人找信息到信息找人谢谢！ * * * * * * * * * * * * * * * * 怎么找到query的相关知识呢？相关搜索是通过Query Log来做的，但是我们并没有query?知识的log！ * * 1、利用query的搜索日志pv排序，取top query作为词根； 2、query也分词，目前选择只有一个词构成的query，同时利用AliWS的语义标签，只要产品类型、品牌词； 3、知识库的知识（称为doc，包括title和content）进行分词； 4、对于每个query，选取与其相关的知识doc，这里的相关判断标准是知识title中含有query这个词，这样就得到了每个query对应的知识点集合； 5、训练过程是，针对每个query对应的知识点集合（语料集）训练一个lda模型； 6、训练数据预处理是指，停用词去除、字符归一化、title词加权等，title词加权的意思是，认为title中的词比content中的重要，可以把title中的词在预料中重复几次； 7、LDA训练，可以采用集团的mpi集群，但是由于我们这个应用的特点是语料集个数多，每个语料集不大，所以我们采用单机版本（mallet机器学习包），为了提高速度，我们放到hadoop上做并行； 8、LDA训练完后，对于一个语料集，可以得到其中每个doc的主题概率向量，即P(主题|文档)，相对于向量空间模型P(词语|文档)，这个主题概率向量维度降低了并且描述能力提高了； 9、对于每个语料集，利用kmeans进行聚类，聚类的目的是把语义上描述相同或相似内容的doc聚到一个簇内； 10、聚类完成后，比如聚成20个簇，我们希望对这些簇做个排序，把质量高的簇排在前面，把质量低的簇排在后面，我们可以只取一部分簇处理，实际上聚类中，总会有个簇是个大杂烩，这样的簇对于我们来言，可以删掉； 11、簇内title过滤，是把那些明显不适合作为相关知识的过滤掉，比如，query是“羽绒服”，如果有个title是“广州天河服装市场的羽绒服怎么样”，这个title太具体，不具有普遍意义，可以过滤掉； 12、簇内title排序，因为我们对每个簇只挑选少数几个title出来使用，排序是挑选的依据； 13、通过算法，可以为每个query提供相关知识的候选集合，最后再让surfer过一下，即可上线；这里只考虑了一个全量流程，实际中还要考虑增量，因为query随时间会变化，知识库也会不断更新。 * * * * 文本挖掘在电子商务场景中应用、机遇和挑战千诀/孙健电子商务场景中的用户痛点海量文本挖掘在电子商务场景中的应用针对用户点评信息的挖掘和应用购物知识搜索产品中的文本挖掘构建电子商务知识词库机遇和挑战提纲购物链用户痛点1: 点评这么多？用户痛点2：有疑问怎么办? 电子商务场景中的用户痛点海量文本挖掘在电子商务