- 1、本文档共16页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于多特征组合在线产品评论情感挖掘探究
基于多特征组合在线产品评论情感挖掘探究 摘要摘要:近年来,如何利用计算机自动、快速、准确地识别大量文本产品评论数据情感倾向是自然语言处理领域关注的重点话题。使用数据抓取软件,抓取亚马逊官网华为honor畅玩版4X手机在线评论进行实验,实验中按照一定的语法规则将每条完整的在线产品评论分成若干子句,识别其中有效子句,提取有效子句评论中多种特征进行组合,然后选用C4.5决策树机器学习法来识别子句的情感倾向,并对多组实验结果进行分析对比。??验结果表明,选择子句中情感词数量和否定词数量作为特征组合时,加权后模型的查准率和查全率均达到96%;程度副词和特殊符号对模型的作用比较微弱,仅有1%的影响;程度副词的作用略优于特殊符号
关键词关键词:决策树;多特征组合;产品评论;情感分析
DOIDOI:10.11907/rjdk.162835
中图分类号:TP301
文献标识码:A文章编号文章编号2017)005000105
0引言
计算机网络、电子商务和移动技术的飞速发展,使用户更加便捷地融入网络,成为信息的使用者和创造者。现今,人们更加习惯于在互联网上发表自己对产品、服务或事件的观点、偏好及情感倾向。CNNIC在《第37次中国互联网络发展状况统计报告》[1]中指出:截至2015年12月份,我国网民数量达到6.88亿,互联网普及率接近50.3%,庞大网民数量为生成海量互联数据提供了基础。其中,在线产品评论数据具有很大的商业价值。面对海量的碎片化、非结构化、口语化、随意化和多样化的交易评论信息,如何借助计算机提取有价值的信息,帮助企业快速定位用户偏好及喜爱和消费者快速检索所需的信息来了解产品的质量和口碑,一直是学者研究的重点和难点
情感分析又称为意见挖掘,简言之,即从带有情感色彩的主观性文本中抽取用户对话题、产品、个人、组织和服务等的情绪、评价、喜好、情感倾向[24]。按照处理文本的内容,可分为基于新闻评论的情感分析和基于产品评论的情感分析[5]。前者主要处理网络新闻事件评论,后者研究对象主要是网购后对产品、服务等的在线评论
目前,国内外学者对文本情感分析已经作了大量研究,常用的方法可以分为两类:基于情感词典的方法和基于机器学习的方法[67]。基于情感词典的方法使用知网Hownet、Wordnet和台湾大学情感词典NTUSD等词典[810],该方法虽然简单直观,但忽略了文本中情感单元和修饰词之间的关系。该方法在句子级情感识别上存在不足,但在词语级情感识别上可以发挥很大作用。基于机器学习的方法又可以分为有监督和无监督学习两种。常用的有监督方法有ME、NB、SVM、CRF等,无监督方法有PMI等[1113]。基于机器学习的情感分类方法是通过提取文本特征,运用数理模型,把文本特征作为输入变量,经过函数运算后输出结果,根据结果对文本进行分类。该方法不仅考虑到语句文本中的情感词语及还考虑了句法结构,词语之间修饰关系。该方法有较高的正确率和稳定性,同时方便地扩展到不同领域。但由于中文词语的一字多义、交叉歧义、表达多样性、句式的复杂性、语言结构的复杂性和词语的不间断性等,使得中文分词和情感分析工作比英语更加困难,学者们一直在寻找方案以提高中文文本情感识别的准确率
已有研究多关注一条完整在线产品评论的情感倾向。该方法主要存在以下两个方面的不足:一是不能正确反映用户内心的情感,对于一款产品,用户可能喜欢某些方面的设计,对另一些设计感到不满,如果仅用评论的整体情感倾向代替用户对产品某一具体方面的情感倾向,显然存在误差;二是混淆评价对象,因为多数分析针对的是用户的完整评论,不能识别出用户对某个具体评价对象的情感倾向。因此,针对以上两点,本文对每条完整的评论按照一定的语法规则进行分句,识别有效子句,提取评价对象,使用C4.5决策树识别子句的情感倾向,该方法采用最大信息增益率作为决策树的属性选择标准,选择的属性作为分裂节点,最初选择的属性作为决策树的根节点,对于分裂节点的不同取值,采用递归的方法求其子树,相比于朴素贝叶斯方法,该方法在分类的稳定性上具有明显优势
1相关工作
在线产品评论的情感分析侧重点不同于新闻评论的情感分析。在线产品评论的情感分析更加关注用户对产品属性或服务的评价,可以忽略评论中一些具有情感倾向的词语或句子。判断一条在线产品评论是否有用,关键在于文本中是否包含评价词、产品属性等。比如华为honor畅玩版4X在线产品评论:“一直在用华为的手机,这款手机挺喜欢的。”该评论就是垃圾信息,虽然文本中出现情感词“喜欢”,但是句子不包含产品属性和评价词,不能区别产品属性的好与坏。假设“喜欢”一词出现在新闻评论,该语句一定代表了评论者的一种正向的感倾向,不能视为垃圾信息。为了更准确地识别在
您可能关注的文档
- 基于Hough变换车道线检测.doc
- 基于IaaS电子政务云安全方案探析.doc
- 基于iFIX水电站监控系统开发及应用.doc
- 基于Input―Shaper技术RTG吊具防摇探究.doc
- 基于Inventor iLogic模型快速设计方法.doc
- 基于Java俄罗斯方块游戏设计及实现.doc
- 基于IT技术电力企业网络办公系统设计及实现.doc
- 基于JAVA毕业生就业协议书打印系统.doc
- 基于Java酒店管理系统设计.doc
- 基于Kano模型绿色食品消费者需求分析探究.doc
- 人教版九年级英语全一册单元速记•巧练Unit13【速记清单】(原卷版+解析).docx
- 人教版九年级英语全一册单元速记•巧练Unit9【速记清单】(原卷版+解析).docx
- 人教版九年级英语全一册单元速记•巧练Unit11【速记清单】(原卷版+解析).docx
- 人教版九年级英语全一册单元速记•巧练Unit14【单元测试·提升卷】(原卷版+解析).docx
- 人教版九年级英语全一册单元速记•巧练Unit8【速记清单】(原卷版+解析).docx
- 人教版九年级英语全一册单元速记•巧练Unit4【单元测试·提升卷】(原卷版+解析).docx
- 人教版九年级英语全一册单元速记•巧练Unit13【单元测试·基础卷】(原卷版+解析).docx
- 人教版九年级英语全一册单元速记•巧练Unit7【速记清单】(原卷版+解析).docx
- 苏教版五年级上册数学分层作业设计 2.2 三角形的面积(附答案).docx
- 人教版九年级英语全一册单元速记•巧练Unit12【单元测试·基础卷】(原卷版+解析).docx
文档评论(0)