- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于语义分析的电子商务产品用户评价分析.doc
基于语义分析的电子商务产品用户评价分析与研究
随着Web3.0的迅速发展,人们无论在生活上还是工作中, 对电子商务的依赖性都不断的增强。因此用户在电子商务平台中对商 品的选择上,很大程度上依赖于该商品的用户评价。对于商家来说, 在投资产品时也依赖于用户对该商品的评价等级,因此如何建立电子 商务平台中产品的用户评价分析模型,为用户和商家提供可靠的决策 依据存着軍.要的作用。本文主要是基于语义分析的模型,采取VSM来 得到用户评价总体情感倾向。
己的信息,
关键词:电子商务;语义分析;情感分析;VSM
一、引言
对于电子商务平台中产品的用户等级分析,通常都是采用对本文 情感分析技术耍进行实现。文本的情感分析可以称作为情感的倾向性 计算,主要是对用户的产品、服务、组织机构和事件等进行实时性评 价分析。当前对于文本的情感分析是一门较为新兴的技术领域,其目 的是利用机器人来对互联网的文本信息进行采集后的数据,通过情感 分析来对用户发表信息时的情感心态。在电子商务领域则是体现在对 用户关注的产品的情感等级的分析,从而对产品操作得到可信的据测 性依据。
二、电子商务产品用户评价情感分析现状
本文的情感分析技术早在上世纪90年代就有许多研究人员开始 进行初步的尝试研宄,并根据市场的实际需求建立起相关的产品和应 用。
哈尔滨工业大学对互联网情感分析现状和动态进行调研、挖掘和 探究,提出现有的情感分析中存在的问题,通过对这些问题的阐述和 探讨,提出在情感分析领域未来的主要研究方向和H标。同济大学也 以新浪微博的平台,对动车事故网友发表的微博和评论进行用户情感 分析,他们提出了微博中的六种情感类别,并据此建立了情感分析模 型,研究微博文本的影响力和计算网友情感的技术和方法,对该事故 之后的公共的情感进行Y分析和探讨。清华大学的谢丽星等多人研究 了基于层次结构的多策略中文微博情感分析和特征提出的方法。他们 通过SVM的监督学习实验,对主题的识别和文本的情感倾向分析取得 了不错的效果。
目前对于电子商务平台的文本情感分析,还没有出现较为系统的 研究成果,不过根据市场的需要,也出现一些比价平台,通过对多个 主流电子商务平台的各项数据采集,特别是对于价格、用户评价,特 别是对与好评和差评信息进行动态采集,形成一个多个电子商务平台 的价格对比,以引导用户选择高性价比的产品。比如,国内的慢慢买、 盒子比价网、琅琅比价网等,提供国内外多个电子商务平台的商品信 息的价格和用户评价的对比。
三、电子商务产品用户评价分析算法研究
用户评价信息的获取
对于用户评价信息的获取,主要利用网络爬虫来进行采集。因此 可以设计一个基于电子商务平台的主题网络爬虫的设计。由于一般的 电子商务平台的商品评价页面都是动态呈现的,因此如何解决对用户 评价的数据更新是设计该主题网络爬虫的技术关键。
对于动态网站的数据采集,可以建立索引空间,采用哈希表的形 式将用户评价信息建立动态索引,利用哈希查找算法,提高采集中查 找的效率,从而实现对动态用户评价信息的采集。
由于目前各类型电子商务平台众多,如果需要多全平台的产品用 户评价信息进行采集,就需要较大的存储空间和处理器,因此可以利 用云计算平台来建立云爬虫,利用云计算的高计算、大存储和高带宽 网络的优点实现大数据的用户评价信息的采集,也为后续的情感分析 提供庞大的数据集。
用户评价信息的特征词处理技术分析
特征词的提出主要分为:文本切词、文本去重和特征词提取三个 步骤。
文本切词:将一段词语独立切分为多个独立的词语,这是文本特 征词处理的基础技术。当前分词算法有字符串匹配算法、基于理解的
算法和基于自动学的算法等。
字符串匹配算法是最为常见的算法之一,其特点是实现简单,词 语的匹配精度性较高。可以建立和维护字符串库,实现不断的自我更 新和自我学习。具体的匹配过程是,对文本进行逐一分解后,通过对 出现在字符串中的本文块,则匹配成功。为了提高匹配的准确性,可 以使用正向最大匹配、逆向最大匹配和双向最大匹配等方法。
文本去重:对于本文切词后,会存在许多重复的词语,这就需要 进行对切词后的重复短语进行去重处理。这里主要是研究使用布隆过 滤器(Bloom Filter)来进行对文本的去重处理。布隆过滤器是上世 纪70年代Howard Bloom提出来的一种二进制向景数据结构,它可以 很好的利用空间和时间效率,来验证一??元素在集合中是否秉复出现。
Bloom Filter的去重原理是:位数组K个独立HASH函数。将HASH 函数对应的值的位数组置1,査找时如果发现所有HASH函数对应位都 是1说明存在,很明显这个过程并不保证查找的结果是100%正确的。 同时也不支持删除一个己经插入的关键字,因为该关键字对应的位会 牵动到其他的关键字。所以一个简单的改进
文档评论(0)