情感分析的粒度与类型.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
情感分析的粒度与类型 1 情感分析概述 随着网络的发展和普及,越来越多的评估信息包括个人情感趋势。评价性信息包含四个部分:评价主题、意见持有者、评价和情感倾向,情感分析通过分析和挖掘评价性信息,识别其情感倾向。情感分析根据粒度的不同分为三种:词汇情感分析、句子情感分析和文档情感分析,三者相比较,句子情感分析能够得到评价主题及各个方面特征的情感关系,具有更广泛的应用范围。 本文将句子情感分析作为研究重点,首先简要描述句子情感分析的主要任务,然后介绍了主客观句分类方法以及两种主观句情感分类方法——基于情感词的方法和机器学习方法,最后对句子情感分析中的关键问题进行总结。 2 文本识别算法 句子情感分析的任务是按照句子所表达的情感倾向对其进行识别,包含以下两个子任务:①主观句识别,提取文本中包含的主观句;②主观句的情感分类,识别主观句的情感倾向,通常是褒/贬二元分类。 2.1 情感倾向的文学处理 主观句识别是对文本进行分析,过滤掉其中的客观句,得到更能反映文本情感倾向的主观句集合。根据词性的不同,Hu Minqing和Liu Bing将形容词作为主客观句的分界线,当句子中同时包含形容词和评价主题时,即认为该句为主观句。句子之间的关系同样可以作为判定标准,Pang和Lee采用最小图割的方法获取文档中的句子与已知主观句的关系;Yu将事实性文档看作客观句集合,评价性文档看作主观句集合,通过判断句子与这两种文档之间的相互关系识别句子的主客观性。从句子中筛选出具有情感倾向的情感词和短语作为特征,选择不同的分类算法如贝叶斯、K邻近等,采用机器学习的方法进行主客观分类,同样取得不错的效果。基于规则的方法可以从文档中提取精度高、观点清晰的主观句,但需要人工编写语言规则且覆盖面较窄。 从以上研究可以看出,识别文档中的主观句关键是提取句子中包含的情感词或者直接判断,或者结合其它信息作为特征项送入标准分类器中判断。句子的主客观分类能够有效提高文本情感分析的准确度,在以上方法中,客观句的识别一般在80%左右,而主观句的识别比较低,只有60%左右。 2.2 主观句子的情感分类 主观句的情感分类是对主观句所表达的情感倾向进行褒贬识别,主要包括两种分类方法:基于情感词的方法和机器学习方法。 2.2.1 句子的情感倾向判断 基本思路是通过判定句子中包含情感词的语义倾向,加上句法结构等信息,间接得到句子的情感倾向。其流程如图1所示: 通过情感词判断句子情感倾向时,Yu、Kim和Hovy、Hu Minqing和Liu Bing首先构建一个情感词集,并为集合中的每个情感词标记正/负整数值作为情感值。 在得到情感词集后,Hu Minqing和Liu Bing通过统计句子中褒义词和贬义词的数量判断句子的情感倾向;Yu将句子中所有情感词的情感平均值作为句子的情感值;Kim和Hovy则将否定词纳入到句子情感倾向的判定之中,采用乘积方法来判断句子的极性,该方法能够处理否定、双重否定对句子情感倾向的反向影响。 采用基于情感词的方法判定句子情感倾向时,能否得到情感倾向准确、包含全面的情感词集是关键,同时也要考虑一些特殊的句法结构对结果的影响,如否定句、比较句等。 2.2.2 svm特征项选择 机器学习方法的基本思想是根据已知训练样本求取对系统输入输出之间依赖关系的估计,使它能够对未知输出作出尽可能准确的预测。使用机器学习方法进行情感分类时,分类算法的选择和特征项的选取是最重要的两个方面。运用机器学习方法进行情感分类的过程(见图2)。 PangBo最早将机器学习方法应用于情感分类领域,他分别利用朴素贝叶斯、最大熵、SVM算法对电影评论进行分类,当以unigram作为特征项时,SVM表现最好,准确率为82.9%,最大熵和朴素贝叶斯的效果相当。 与PangBo不同,Dava在对几种产品的评论进行情感分类时,采用bigram作为特征项训练分类器的效果最好,这表明分类器效果的好坏与所选取的特征项息息相关。 在特征项的选择上,崔彩霞和王素格提出一个特征项选择函数,用来替代传统的文档频率和互信息选择方法。除此之外,王素格等还研究了停用词对中文文本情感分类的影响,它构造了五种停用词表作为特征项选择的依据,实验表明停用词表的选择对文本情感分类的影响很大。 在采用机器学习方法分类时,同时选取形容词、副词、名词作为特征项比选取单一词性的效果要好,对否定词进行处理能明显提高分类的准确性。 在上述机器学习方法中,选取的特征项是相互独立的,然而句子中词汇之间的语义关系对判断文本的情感倾向也很重要。Matsumoto等从句子提取出频繁子序列和频繁子树,与unigram、bigram共同作为特征项,采用SVM方法分类时准确率达到了92%以上。Whitelaw将评价组作为文本情感倾向识别的最小单位,同样采用SVM方法

文档评论(0)

uyyyeuuryw + 关注
实名认证
文档贡献者

专业文档制作

1亿VIP精品文档

相关文档