- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于语义分析的电子商务产品用户评价分析与研究
摘要:随着Web3.0的迅速发展,人们无论在生活上还 是工作中,对电子商务的依赖性都不断的增强。因此用户在 电子商务平台中对商品的选择上,很大程度上依赖于该商品 的用户评价。对于商家来说,在投资产品时也依赖于用户对 该商品的评价等级,因此如何建立电子商务平台中产品的用 户评价分析模型,为用户和商家提供可靠的决策依据有着重 要的作用。本文主要是基于语义分析的模型,采取VSM来 得到用户评价总体情感倾向。
关键词:电子商务;语义分析;情感分析;VSM
一、引言
对于电子商务平台中产品的用户等级分析,通常都是 采用对本文情感分析技术要进行实现。文本的情感分析可以 称作为情感的倾向性计算,主要是对用户的产品、服务、组 织机构和事件等进行实时性评价分析。当前对于文本的情感 分析是一门较为新兴的技术领域,其目的是利用机器人来对 互联网的文本信息进行采集后的数据,通过情感分析来对用 户发表信息时的情感心态。在电子商务领域则是体现在对用 户关注的产品的情感等级的分析,从而对产品操作得到可信
的据测性依据。
二、电子商务产品用户评价情感分析现状
本文的情感分析技术早在上世纪90年代就有许多研 宄人员开始进行初步的尝试研究,并根据市场的实际需求建 立起相关的产品和应用。
哈尔滨工业大学对互联网情感分析现状和动态进行调 研、挖掘和探究,提出现有的情感分析中存在的问题,通过 对这些问题的阐述和探讨,提出在情感分析领域未来的主要 研宄方向和目标。同济大学也以新浪微博的平台,对动车事 故网友发表的微博和评论进行用户情感分析,他们提出了微 博中的六种情感类别,并据此建立了情感分析模型,研究微 博文本的影响力和计算网友情感的技术和方法,对该事故之 后的公共的情感进行了分析和探讨。清华大学的谢丽星等多 人研宄了基于层次结构的多策略中文微博情感分析和特征 提出的方法。他们通过SVM的监督学习实验,对主题的识 别和文本的情感倾向分析取得了不错的效果。
目前对于电子商务平台的文本情感分析,还没有出现 较为系统的研究成果,不过根据市场的需要,也出现一些比 价平台,通过对多个主流电子商务平台的各项数据采集,特 别是对于价格、用户评价,特别是对与好评和差评信息进行 动态采集,形成一个多个电子商务平台的价格对比,以引导 用户选择高性价比的产品。比如,国内的慢慢买、盒子比价 网、琅琅比价网等,提供国内外多个电子商务平台的商品信 息的价格和用户评价的对比。
三、电子商务产品用户评价分析算法研究
用户评价信息的获取
对于用户评价信息的获取,主要利用网络爬虫来进行 采集。因此可以设计一个基于电子商务平台的主题网络爬虫 的设计。由于一般的电子商务平台的商品评价页面都是动态 呈现的,因此如何解决对用户评价的数据更新是设计该主题 网络爬虫的技术关键。
对于动态网站的数据采集,可以建立索引空间,采用 哈希表的形式将用户评价信息建立动态索引,利用哈希查找 算法,提高采集中查找的效率,从而实现对动态用户评价信 息的米集。
由于目前各类型电子商务平台众多,如果需要多全平 台的产品用户评价信息进行采集,就需要较大的存储空间和 处理器,因此可以利用云计算平台来建立云爬虫,利用云计 算的高计算、大存储和高带宽网络的优点实现大数据的用户 评价信息的采集,也为后续的情感分析提供庞大的数据集。
用户评价信息的特征词处理技术分析
特征词的提出主要分为:文本切词、文本去重和特征 词提取三个步骤。
文本切词:将一段词语独立切分为多个独立的词语,
这是文本特征词处理的基础技术。当前分词算法有字符串匹
配算法、基于理解的算法和基于自动学习的算法等。
字符串匹配算法是最为常见的算法之一,其特点是实
现简单,词语的匹配精度性较高。可以建立和维护字符串库, 实现不断的自我更新和自我学习。具体的匹配过程是,对文 本进行逐一分解后,通过对出现在字符串中的本文块,则匹 配成功。为了提高匹配的准确性,可以使用正向最大匹配、 逆向最大匹配和双向最大匹配等方法。
文本去重:对于本文切词后,会存在许多重复的词语, 这就需要进行对切词后的重复短语进行去重处理。这里主要 是研究使用布隆过滤器来进行对文本的去重处理。布隆过滤 器是上世纪70年代Howard Bloom提出来的一种二进制向量 数据结构,它可以很好的利用空间和时间效率,来验证一 命分元素在集合中是否重复出现。
Bloom Filter的去重原理是:位数组K个独立HASH 函数。将HASH函数对应的值的位数组置1,查找时如果发 现所有HASH函数对应位都是1说明存在,很明显这个过程 并不保证查找的结果是100%正确的。同时也不支持删除一 个已经插入的关键字,因为该关键字对应的位会牵动到其他
的关键字。所以一个简单的改进就是count
您可能关注的文档
- 基于网络提高经济学“双语教学”时效性的实践探索.doc
- 基于网络通信技术下弱电智能化建筑系统的研究.doc
- 基于网络文本的皇城相府景区游客满意度分析旅游管理初稿3.doc
- 基于网络文本内容分析的江苏“丝绸之路”旅游发展研究.doc
- 基于网络文化的和谐社会发展对策与建议.doc
- 基于网络下的物流配送.doc
- 基于网络协作学习方式的探讨.doc
- 基于网络新媒体人际互动的高校大学生网络思政教育模式探析.doc
- 基于网络学习的学习取向理论与应用.doc
- 基于网络营销的中小企业品牌建设探析.doc
- 人教版数学九年级上册《 二次函数》说课稿(共19张PPT).ppt
- 人教版八年级上册 12.2.2三角形全等的判定 “边角边”判定三角形全等 (共22张PPT).ppt
- 人教版初中数学2011课标版八年级上册第十二章12.2 三角形全等的判定 课件(共16张PPT).ppt
- 人教版九年级第十单元课题1浓硫酸1 (共18张PPT).ppt
- 人教版初中数学七年级上册 1.4 有理数的乘除法(共22张PPT).ppt
- 人教版八年级物理上册第1章 第2节运动的描述习题课件(共20张PPT).ppt
- 人教版九年级课题2酸和碱之间会发生什么反应(共21张PPT).ppt
- 人教版初中物理2011课标版 九年级 第十八章 电功率第三节 测量小灯泡的电功率(共25张PPT).pptx
- 人教版初中数学2011课标版九年级上册第二十四章24.1圆的有关性质(共17张PPT).ppt
- 人教版初中数学2011课标版九年级上册21.2解一元二次方程(共22张PPT).pptx
最近下载
- 脑卒中管理规范 2.07急性出血性脑卒中急诊治疗流程.pdf VIP
- 《水的组成》PPT课件50.pptx VIP
- 2025浙江余姚农商行秋季校园招聘笔试历年典型考题及考点剖析附带答案详解.docx
- T_CWAN 0131-2025 焊缝疲劳分析 等效结构应力法.docx VIP
- The ARLCNI 2035 Scenarios:AI-Influenced Futures in the Research Environmen英文调查报告.docx VIP
- 招标代理服务承诺.docx VIP
- 道路拆除工程安全管理措施.docx VIP
- 断指再植术后护理.ppt VIP
- 火法冶炼与湿法冶炼的比较.pptx VIP
- 印刷油墨管理规范.pdf VIP
原创力文档


文档评论(0)