- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
WEB文本情感倾向性分析研究综述.doc
WEB文本情感倾向性分析研究综述 摘 要:主要针对文本情感倾向性分析近年来的研究进行总结。首先介绍主客观文本分析的内容,接着从词语级、短语级、句子级、篇章级,介绍了文本情感倾向分析近些年的一些技术和研究,对其各自的优缺点进行概括。最后对文本情感倾向性分析进行总结,提出对未来研究的想法。 关键词:文本情感倾向性分析流程;主客观文本分析;文本情感倾向性分析 中图分类号:TP391.1 文本情感分类是分析和处理带有情感色彩的主观性文本,归纳总结并推理出主观文本的情感倾向性。文本情感分类的主要目的是能让计算机自动识别主观性文本的情感倾向性及其强度,因此引申出了它的研究点[1]:文本的主客观分类;文本的情感倾向性分析;文本的情感强度分类。前者容易理解,就是内容描述的主客观性分类,而后两者则为褒贬性倾向与情感表述强弱程度的分类判别。文本情感倾向性分析实质上是将文本分为积极、否定或者中性情感,通过分析、分类和归纳大量主观性文本的情感倾向,提取出人们对事物的总体看法。本文就是针对以往的文本情感分类工作,考虑国内外最新进展,对文本主客观分类和倾向性分析研究现状进行概括和展望。 1 主客观性文本分析 通常的文本中,存在大量的客观性文本和主观性文本。客观性文本是一种对个人、事物或事件不带有感情色彩的一种客观性描述;主观性文本主要描述人、群体或者组织对事物、人物、事件等的想法或看法。主观性文本是文本情感倾向分析的主要对象,因此,对文本事先进行主客观文本识别非常重要,能够有效地缩小分析范围,提高分析速度和精确度。 在主观句识别中,较简单的方法是通过对各种形容词的分析、识别,来判断句子的主客观性,这可以看作识别主观性句子最基本的思路,但往往还不够。对于主客观句子识别,比较常用的办法就是结合词性标注,利用贝叶斯分类器进行分类,除此类方法外,有人提出了基于半监督自训练的句子主观性分类,尝试决策树模型作为选择度量方法,并结合朴素贝叶斯分类器,在MPQA语料库中进行试验,取得了不错的效果。 姚天?等人从一些特殊的特征角度考察了主客观文本,如标点符号、人称代词、数字等,从而总结出七条主观线索。文献[2]在此基础上分别采用主观线索和主观模式的方法来提取主观句子,最后又将两种方法相结合来提取主观句子。并针对相同测试语料进行对比,结果表明,主观线索与主观模式相结合的方法是合理有效的。通过分析微博文本的表述特点,提取一些主客观线索特征,以特征词和主客观线索做语义特征,2-POS模式为语法特征,采用朴素贝叶斯练的分类器分别研究它们对分类结果的影响。实验结果表明,特征选取上,同时考虑语义特征和语法结构特征的分类效果比仅考虑一种特征时要好。 总之,主观性文本识别主要以情感词为主,利用各种文本特征表示方法和分类器进行分类识别,该方法关键在于分类器和特征的选取。 2 文本情感倾向性分析方法 文本情感倾向性分析,就是对说话人的态度(或称观点、情感、语气)进行分析,也就是对文本中的主观性信息进行分析。文本情感倾向分析的研究大致可以分成四个级别:词语级、短语级、句子级、篇章级。下面就对其各部分进行总结。 2.1 词语情感倾向性分析 词语级情感分析的研究对象主要是带有情感色彩的词语,以动词、副词和形容词为主。其中,除部分词语的褒贬性可以通过查词典的方式得到之外,其余词语的倾向性都无法直接获得。目前主要有以下几种方法: (1)无监督机器学习方法。这种方法与第一种方法类似,也是假设己经有一些已知极性的词语作为种子词,不同的是,第一种方法是以词典信息为依据判断,而这种方法是根据词语在语料库中的共现情况判断其联系紧密程度。基于此思想,采用逐点分析方法SO-PMI,其理论假设是根据自然语言文本里的一个现象:语义倾向性越相似的两个词,在同一篇文档中共现的概率越大。由于该假设是基于英文之上,不能直接用于中文的情感计算,在对中文文本特点分析的基础上,结合语义和数据挖掘的相关理论,对逐点分析方法SO-PMI进行了改进,提出了一种新型的情感倾向计算模型,判别准确率可达80%以上。 (2)基于语料库的学习方法。该方法首先对情感倾向分析语料库进行手工标注。在这些标注语料的基础上,利用词与词的统计特征、共现关系、搭配关系或者语义关系,判断词语的情感倾向性。这类方法的优点是能简单明了的分析情感,缺陷是需要大量的人工标注,人工干涉语料因素很大。 (3)利用词语之间的关联词及依存关系。关联词可分为3种类型:递进、并列和转折,利用关联词判断其前后词的情感倾向。A.Gammerma借助于DeParser对句子进行句法分析,得到词与词之间的依存关系及候选词的否定词和强调词,以此来修正候选词的原极性。 2.2 短语情感倾向性分析 短语情感倾向性分析是建立在词语情感倾向性分析基础上的,短语是词和词按照一定方式组合起来的语言单位,它
文档评论(0)