- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
* * * * * * * * * * * * * * * * 问答数据的全网获取 宝贝详情页数据 生意经、CRM等 资讯、BBS等内网数据 外部QA专业网站 外部购物相关BBS 内网 外网 数据预处理 单页面信息抽取 多页面信息处理 问答知识库 人工干预 B2C网站购物问答 基于Wrapper的问答知识抽取 抓取数据 URL pattern过滤 全文条件过滤 建立抽取树 结构化知识 定位关键区域 获取字段值 过滤去噪 单记录生成 类目映射 合并去重 淘宝详情页问答知识抽取流程 原始数据 解压缩 抽取有格式字段 (类目、宝贝名) 获取无格式详情 建立抽取树 (结构化详情文本) 抽取详情页中图片链接 去噪(过滤肯定不是KV的分支) 找Key (文本+结构+属性+风格) 后续Value(完整性并反馈找Key) 黑白名单等后处理 Dump图片 预处理 (过滤文字占比过低) OCR 合并去重 购物知识识别 结构化知识 文本 图像 挖掘到的数据量 电子商务知识词库建设 针对电子商务领域, 赋予Term语义信息,比如产品词、品牌、型号、颜色等 建立Term之间的关系,比如手机-诺基亚品牌含有哪些型号 电器 家用电器 大家电 影音电器 电脑设备 … 手机数码 手机 诺基亚 N97 N8 E71 N85 E63 … 苹果 HTC … 数码相机 随身视听 电子商务知识库建设 现状 电子商务场景中的用户痛点 海量文本挖掘在电子商务场景中的应用 针对用户点评信息的挖掘和应用 购物知识搜索产品中的文本挖掘 构建电子商务知识词库 机遇和挑战 提 纲 机遇 互联网信息正日益丰富 E.g UGC 计算能力越来越强,集群协同计算 更深入 实时性更强 建立在用户数据积累上的对用户需求的理解 挑战 高质量的语义知识库 从海量信息处理 到 海量信息的理解 从 人找信息 到 信息找人 谢谢! * * * * * * * * * * * * * * * * 怎么找到query的相关知识呢? 相关搜索是通过Query Log来做的,但是我们并没有query?知识的log! * * 1、利用query的搜索日志pv排序,取top query作为词根; 2、query也分词,目前选择只有一个词构成的query,同时利用AliWS的语义标签,只要产品类型、品牌词; 3、知识库的知识(称为doc,包括title和content)进行分词; 4、对于每个query,选取与其相关的知识doc,这里的相关判断标准是知识title中含有query这个词,这样就得到了每个query对应的知识点集合; 5、训练过程是,针对每个query对应的知识点集合(语料集)训练一个lda模型; 6、训练数据预处理是指,停用词去除、字符归一化、title词加权等,title词加权的意思是,认为title中的词比content中的重要,可以把title中的词在预料中重复几次; 7、LDA训练,可以采用集团的mpi集群,但是由于我们这个应用的特点是语料集个数多,每个语料集不大,所以我们采用单机版本(mallet机器学习包),为了提高速度,我们放到hadoop上做并行; 8、LDA训练完后,对于一个语料集,可以得到其中每个doc的主题概率向量,即P(主题|文档),相对于向量空间模型P(词语|文档),这个主题概率向量维度降低了并且描述能力提高了; 9、对于每个语料集,利用kmeans进行聚类,聚类的目的是把语义上描述相同或相似内容的doc聚到一个簇内; 10、聚类完成后,比如聚成20个簇,我们希望对这些簇做个排序,把质量高的簇排在前面,把质量低的簇排在后面,我们可以只取一部分簇处理,实际上聚类中,总会有个簇是个大杂烩,这样的簇对于我们来言,可以删掉; 11、簇内title过滤,是把那些明显不适合作为相关知识的过滤掉,比如,query是“羽绒服”,如果有个title是“广州天河服装市场的羽绒服怎么样”,这个title太具体,不具有普遍意义,可以过滤掉; 12、簇内title排序,因为我们对每个簇只挑选少数几个title出来使用,排序是挑选的依据; 13、通过算法,可以为每个query提供相关知识的候选集合,最后再让surfer过一下,即可上线; 这里只考虑了一个全量流程,实际中还要考虑增量,因为query随时间会变化,知识库也会不断更新。 * * * * 文本挖掘在电子商务场景中 应用、机遇和挑战 千诀/孙健 电子商务场景中的用户痛点 海量文本挖掘在电子商务场景中的应用 针对用户点评信息的挖掘和应用 购物知识搜索产品中的文本挖掘 构建电子商务知识词库 机遇和挑战 提 纲 购物链 用户痛点1: 点评这么多? 用户痛点2:有疑问怎么办? 电子商务场景中的用户痛点 海量文本挖掘在电子商务
您可能关注的文档
最近下载
- 18D009 数据中心工程设计与安装.pdf VIP
- 船舶管系安装工艺标准wan.doc VIP
- 高中英语写作专题18 读后续写全文模板·背诵50句(原卷版).docx VIP
- 6.1树立法治观念课件(共33张PPT).pptx VIP
- 什么是课堂观察量表.docx VIP
- 2025公安招聘辅警考试笔试题及答案.docx VIP
- 深度解析《GBT 4340.1-2024金属材料 维氏硬度试验 第1部分 试验方法》.pptx
- 2024-2025学年第一学期 青岛版小学信息科技四年级上册 第一单元 信息科技基础 课时学历案 .pdf VIP
- 外研版(2025)必修第一册Unit 1 A New Start Developing ideas Writing 课件(13张ppt)(含音频+视频).pptx VIP
- 2024-2025学年第一学期 青岛版小学信息科技四年级上册 第二单元 反馈与优化 课时学历案 .docx VIP
文档评论(0)