基于多重冗余标记CRFs句子情感分析研究.docVIP

基于多重冗余标记CRFs句子情感分析研究.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于多重冗余标记CRFs句子情感分析研究

基于多重冗余标记CRFs句子情感分析研究   摘 要:本文提出了一种基于多重冗余标记的CRFs并将其应用于情感分析任务。该方法不仅能够有效地解决有序标记的分类问题,还能够在保证情感分析中各子任务能够使用不同特征的前提下,将情感分析中的主客观分类、褒贬分类和褒贬强弱分类任务统一在一个模型之中,在多个子任务上寻求联合最优,制约分步完成时误差的传播。实验证明,该方法有效地提高了句子情感分析任务的准确率。在理论上,该方法也为基于最大似然训练的算法解决序回归问题提供了一条途径。   关键词:计算机应用;中文信息处理;句子情感分析;序回归;条件随机场;冗余标记   中图分类号:TP391 文献标识码:A      1 引 言      随着互联网用户数量的急剧增加,网络上涌现出大量带有用户主观性色彩的信息,如用户对产品的评论、对服务的评价、对艺术作品的讨论等等。由于主观性信息在电子商务、电子政务、民意分析方面有巨大的应用价值,对主观性语言的分析引起了大量研究者的关注。   本文研究的是主观性语言中句子情感的分析。不同于文档级的情感分析,句子情感的分析有助于理解文档作者对主题各个侧面的具体态度,有助于按照观点对文档进行摘要。   句子情感分析的任务就是,按照句子表达出的情感进行分类,它包含以下几个子任务:   (1)句子的主客观分类:主客观分类是从主客观混合的文本中将主观语言的文本抽取出来,过滤掉不带情感色彩的文本。大量的相关工作表明,将客观语言识别出来有利于主观性语言的各种分析。   (2)句子的褒贬分类:就是根据句子包含的褒贬态度对句子的情感表达进行分类,也称为极性分类,它通常是一个二分类任务。   (3)句子的褒贬强弱分类:评价的褒贬态度具有强弱渐变的特点。在有些应用背景下,单纯的褒贬分类是不够的,还需要区别褒贬情感的强弱。我们把这种任务称为情感的强弱分类,它是一种特殊的分类问题,因为强弱分类的类别是离散而有等级的,所以在机器学习领域中它被称为“序回归”问题。   在当前的研究中,对情感的强弱分类任务,都是以多分类的方法处理,这种处理方式忽略了情感类别间的序关系,造成训练模型不够准确,影响分类结果。当前研究存在的另外一个问题是,将以上三个部分分成顺序的步骤,后续的分类不能对前面的结果进行约束和纠正,结果导致误差的积累。   针对以上两个问题,本文提出了一种CRFs模型的改进方法――基于多重冗余标记的CRFs模型,利用它进行句子情感分析,能够:      (1)利用冗余标记对应的特征函数,直观地在CRFs模型中融入标记间的顺序关系,更好地解决褒贬的强弱分类问题。同时这种方法也为基于最大似然训练的学习算法解决序回归问题提供了一条途径。   (2)将主客观分类、褒贬分类以及褒贬的强弱分类三个问题融为一体,在保持使用不同特征的条件下,使得顺序进行的任务变成一个统一模型,能够寻找多个步骤上的联合最优。同时这种方法也启示我们可以用这样的建模方式来进行多个分类任务的一体化。      2 相关工作的分析      2.1 主客观分类和褒贬分类的相关工作   关于主客观分类和褒贬分类两个任务,过去的工作存在以下两个问题。   第一,过去的一些工作将主客观分类任务和褒贬分类任务当作一个多分类问题来解决。例如将两个任务合并地看作类别为“褒义”、“客观”、“贬义”的一个三分类任务。但是这种方法忽略了两个任务所用特征的不同,将区别主客观和区别褒贬极性的特征夹杂在一起,任务分工不清晰。   主客观分类和褒贬分类的目标不同,决定了它们的特征不同。主客观分类的目的是把表达个人观点和感受的语言同描述事实、叙述事件的语言区别开来。褒贬分类是对文本按照语言表达者的不同情感和态度进行分类。这是两个不同的任务,它们具有的特征不尽相同。   主客观分类特征是透露出主观色彩的短语和句子,例如:“我推荐”、“我讨厌”、“无耻的”,但不是所有的主客观分类的特征都可以用于情感分类,例如:“我认为”、“我发觉”等。另外,我们在某个领域进行讨论时,无关话题中的带主观色彩的词语不应该影响作者对主题情感态度。例如,在分析电影评论的时候,对剧情中人物的评价不应该影响作者对影片的评价。为了区别这种由于主题不相关而产生的干扰,主客观分类任务就应该较褒贬分类多考虑一类区别主题是否相关的特征。   第二,另外一些工作使用两个模型顺序地完成这两个任务,但后续的情感分析对前序的主客观不能产生影响,导致前序的误差不能通过后续的判断进行纠正。如果采用一个统一的模型就可以同时考虑两个任务,寻找一个整体的最优。      2.2 褒贬强弱分类   由于句子情感分析中句子的褒贬强弱分类属于序回归的范畴,因此解决褒贬强弱分类最好的途径应该是遵从序回归的学习框

您可能关注的文档

文档评论(0)

189****7685 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档