- 1、本文档共38页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
文本挖掘在电子商务场景中应用、机遇和挑战千诀/孙健
电子商务场景中的用户痛点海量文本挖掘在电子商务场景中的应用针对用户点评信息的挖掘和应用购物知识搜索产品中的文本挖掘构建电子商务知识词库机遇和挑战提纲
购物链购物前买什么去哪儿买购物中购物后
用户痛点1:点评这么多?
用户痛点2:有疑问怎么办?
电子商务场景中的用户痛点海量文本挖掘在电子商务场景中的应用针对用户点评信息的挖掘和应用机遇和挑战构建电子商务知识词库购物知识搜索产品中的文本挖掘010203040506提纲
针对用户点评信息的挖掘和应用(1)
一淘每天的点评量约36万;淘宝每天的点评量约700万;针对用户点评信息的挖掘和应用(2)
针对用户点评信息的挖掘和应用(3)
针对用户点评信息的挖掘和应用(4)
针对用户点评信息的挖掘和应用(5)“外观不错,功能也挺多,就是玩游戏有点卡,触屏有时反应没那么快,不过这确实不是卖家能解决的问题~总体来说不错了”外观,不错功能,多游戏,卡反应,(没)快总体,不错外观,不错,1功能,多,1游戏,卡,-1反应,快,-1总体,不错,1
电子商务场景中的用户痛点海量文本挖掘在电子商务场景中的应用针对用户点评信息的挖掘和应用购物知识搜索产品中的文本挖掘构建电子商务知识词库机遇和挑战提纲
购物知识搜索中的文本挖掘
购物知识搜索中的文本挖掘
购物知识搜索中的文本挖掘羽绒服十大品牌羽绒服能水洗吗怎样去除羽绒服上的油污羽绒服怎么洗涤羽绒服怎么挑选怎么防止羽绒服掉毛
购物知识搜索中的Query-问题挖掘01购物知识搜索中的问题-答案挖掘02购物知识搜索中的文本挖掘
这个问题抽象为由一个query给出几个相关知识这几个相关知识的语义互相独立购物知识搜索中query相关知识挖掘
02挖掘方法把知识聚成几类,每类里面挑选最优的知识条目展现知识聚类传统的向量空间模型有两个问题:一是不能解决同义词或多义词问题,二是向量维度高,聚类效果不好;采用主题模型(topicmodel),可以较好解决这两个问题01购物知识搜索中query相关知识挖掘
购物知识搜索中query相关知识挖掘
购物知识搜索中query相关知识挖掘21query“羽绒服”及所有与其相关的知识点(这里只显示title,共19200条知识点)羽绒服
购物知识搜索中query相关知识挖掘知识点的主题概率向量P(topic|doc)比如“羽绒服坏了一个小眼,漏毛怎么办?”这个知识doc的topic向量如下(80个topic)
购物知识搜索中query相关知识挖掘Kmeans聚类后的簇示例从中可以看到,簇以及簇内的title的质量都参差不齐,所以需要对簇以及簇内的title都进行排序,然后挑选。
购物知识搜索中query相关知识挖掘最后得到的相关知识结果羽绒服
购物知识搜索中的问题-答案挖掘
淘宝详情页是很大的知识宝库
淘宝详情页是很大的知识宝库
阿里内部各产品线具有大量的优质数据详情页淘宝帮派生意经…外网垂直类网站
宝贝详情页数据生意经、CRM等资讯、BBS等内网数据外部QA专业网站外部购物相关BBS内网外网数据预处理单页面信息抽取多页面信息处理问答知识库人工干预B2C网站购物问答问答数据的全网获取
基于Wrapper的问答知识抽取抓取数据URLpattern过滤全文条件过滤建立抽取树结构化知识定位关键区域精确定位模糊定位条件定位Xpath解析定位器获取字段值类目标签关键词区域条件过滤问题回答其它信息字段定位过滤去噪单记录生成类目映射合并去重
淘宝详情页问答知识抽取流程原始数据解压缩抽取有格式字段(类目、宝贝名)获取无格式详情建立抽取树(结构化详情文本)抽取详情页中图片链接去噪(过滤肯定不是KV的分支)找Key(文本+结构+属性+风格)后续Value(完整性并反馈找Key)黑白名单等后处理Dump图片预处理(过滤文字占比过低)OCR合并去重购物知识识别结构化知识文本图像
挖掘到的数据量数据来源URL总数有效数据量宝贝详情页2亿2000万生意经3000万115万外网QA2000万500万外网BBS1000万100万
电子商务知识词库建设针对电子商务领域,赋予Term语义信息,比如产品词、品牌、型号、颜色等建立Term之间的关系,比如手机-诺基亚品牌含有哪些型号电器家用电器大家电影音电器电脑设备…手机数码手机诺基亚N97N8E71N85E63…苹果HTC…数码相机随身视听
电子商务知识库建设现状
2海量文本挖掘在电子商务场景中的应用3针对用户点评信息的挖掘和应用1电子商务场景中的用户痛点6机遇和
您可能关注的文档
- 大学生职业生涯规划第七讲.pptx
- 数控剪板机的分类与结构简述.pptx
- 旅游安全法律制度.pptx
- 教学目标的导向设计.pptx
- 形状与抗弯曲能力.pptx
- 招商部招商计划与方案修改.pptx
- 教师工作量统计系统设计.pptx
- 教科版一年级上册《轻轻地走路》.pptx
- 增值税会计实训.pptx
- 教学规律和原则.pptx
- 金融产品2024年投资策略报告:积极适应市场风格,行为金融+机器学习新发现.pdf
- 交运物流2024年度投资策略:转型十字路,峰回路又转(2023120317).pdf
- 建材行业2024年投资策略报告:板块持续磨底,重点关注需求侧复苏.pdf
- 宏观2024年投资策略报告:复苏之路.pdf
- 光储氢2024年投资策略报告:复苏在春季,需求的非线性增长曙光初现.pdf
- 公用环保2024年投资策略报告:电改持续推进,火电盈利稳定性有望进一步提升.pdf
- 房地产2024年投资策略报告:聚焦三大工程,静待需求修复.pdf
- 保险2024年投资策略报告:资产负债匹配穿越利率周期.pdf
- 政策研究2024年宏观政策与经济形势展望:共识与分歧.pdf
- 有色金属行业2024年投资策略报告:新旧需求共振&工业原料受限,构筑有色大海星辰.pdf
最近下载
- 22J403-1 楼梯 栏杆 栏板一 (1).docx VIP
- 越野汽车强制锁止式差速器的设计.docx
- 2025年二建《市政公用工程管理与实务》案例300问.pdf VIP
- 华为鸿蒙介绍:于鸿蒙之中万物静默生长,开源生态繁花似锦竞相绽放(29页).pptx
- 优质课一等奖高中语文必修四《永遇乐·京口北固亭怀古》 (2).doc VIP
- 中式面点制作工艺章节测试答案.pdf VIP
- 2024年信息系统项目管理师(综合知识、案例分析、论文)合卷软件资格考试(高级)试题与参考答案.pdf VIP
- 体育概论(第二版)全套教学课件汇总.pptx
- 虚拟数字人全景深度解析.docx
- 《立体车库的PLC设计》.doc
文档评论(0)