基于层叠CRFs模型句子褒贬度分析研究.docVIP

下载本文档

11
0
约5.59千字
约 13页
2018-08-29 发布于福建
举报
版权申诉

基于层叠CRFs模型句子褒贬度分析研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于层叠CRFs模型句子褒贬度分析研究

基于层叠CRFs模型句子褒贬度分析研究　　摘要：本文研究句子的褒贬度分析问题。针对传统的基于分类的句子褒贬度分析方法不能考虑上下文信息的问题，以及基于单层模型的句子褒贬度分类方法中的由于标记冗余引起的分类精度不高问题，本文提出了基于层叠式CRFs模型的句子褒贬度分析方法。该方法利用多个CRFs模型从粗到细分步地判断句子的褒贬类别及其褒贬强度，其中层叠式框架可以考虑句子褒贬类别与褒贬强度类别之间的层级冗余关系，而CRFs模型可以利用上下文信息对于句子褒贬类别和强度的影响。该方法在有效识别句子褒贬度的同时，提高了句子褒贬强度判别的准确度。实验证明相对于传统分类方法和单层CRFs模型，本文的方法取得了良好的效果。　　关键词：计算机应用；中文信息处理；句子褒贬度分析；褒贬分类；褒贬强度分析；冗余标记；层叠式条件随机场　　中图分类号：TP391 　　文献标识码：A 　　　　1　引言　　　　目前文本主观信息的抽取以及文本倾向性分析技术逐步成为自然语言处理和信息检索等领域中的一个热点问题。网络中存在大量的主观倾向性文本信息，例如：产品评论、影评、新闻、社论、博客等，对这些主观倾向性文本信息进行分析在电子商务、信息安全等领域具有重要的实用价值。同时，从海量的文本中抽取这些主观文本、计算其倾向性以及倾向性强弱程度也是一个难点问题。　　文本倾向性分析通常包含三个子任务。一是文本的主客观分类，就是从主客观混合文本语料中抽取表示主观性的文本；二是文本褒贬分类；三是文本褒贬强度分类，即计算文本褒贬的程度。例如：一个主观性的句子表达出的情感可以分为强烈贬抑、一般贬抑、客观、一般褒扬、强烈褒扬五个类别。后两个任务统称为文本褒贬度分析。　　另一方面，文本倾向性分析分为词语级、句子级、段落级以及篇章级多个层次。本文主要针对句子级褒贬度分析问题进行研究。　　目前，常常把句子的褒贬分类和褒贬强弱程度识别，看成一个分类任务。将每个句子作为独立的样本，通过人工标注的语料、知识库(WordNet等)或者互联网扩展出词语或短语的褒贬度打分，进而利用特征的筛选计算句子的褒贬类别。但是由于人们在表述语言的时候都具有一定的连贯性，所以对于一个篇章或者段落来说，其中的句子可以看作一个序列，每一句话的褒贬度与上下文都具有紧密的联系，在不同语境下句子的倾向性以及强度具有很大的差别。因此，本文把句子级的褒贬强度的多分类问题看作一个序列标注任务，而不是一个独立句子的分类任务。　　同时，在类别的独立性方面，褒贬度分析也有别于传统多分类任务。一方面，表示褒贬强度的类别之间存在冗余信息，即它们都包含了相同的褒贬信息(例如：“强烈贬抑”与“一般贬抑”都具有贬抑的倾向性)，所以褒贬强度类别之间的界限很难界定，孤立地看成多分类问题，在统一模型下判别主观性文本的褒贬强度往往达不到好的效果，分类器很难判别褒贬强度与客观类别之间的距离，往往在“强烈贬抑”与“一般贬抑”、“强烈褒扬”与“一般褒扬”之间会产生大量错分样本。另一方面，褒贬类别之间是存在层级关系的，褒贬类别可以看作是褒贬强度类别的父类别(例如：褒扬类别是“强烈褒扬”和“一般褒扬”类别的父类别，是它们的共有属性)，因此利用标记间的层级结构有助于提高上述多分类问题的准确率。　　基于以上分析，本文把句子褒贬度分析看作一个层叠式的序列标注问题，在层叠CRFs框架下，利用多个CRFs模型从粗到细分步地计算句子的褒贬度以及褒贬强度。其中，通过层叠式框架可以考虑句子褒贬类别与褒贬强度类别之间的层级冗余关系，而通过CRFs模型可以在句子褒贬类别计算时充分利用上下文信息。该方法在有效识别句子褒贬度的同时，有效提高了句子褒贬强度判别的准确度。实验证明，相对于传统分类方法和标准CRFs模型，该方法取得了良好的效果。　　本文具体章节安排如下。第二节介绍当前国内外文本倾向性分析的方法，CRFs的相关工作，以及CRFs在文本倾向性分析中的应用；第三节着重介绍本文给出的基于层级CRFs模型的句子褒贬度分析方法，包括模型复杂度分析和特征选择的方法；第四节给出实验结果及其分析，对本文提出的方法进行验证；最后一节给出结论，并对以后的工作进行展望。　　　　2　相关工作　　　　目前，倾向性分析的主要研究方法是基于人工标注语料库，利用机器学习方法计算词语、句子和篇章的褒贬度。其中一种代表性的方法是分类方法。对于句子级的倾向性分析，大部分研究工作集中在对句子的主客观分类上；Pang等人针对句子的褒贬度分类也做了一定的工作，其主要思想是“在上下文中，相邻的句子应该具有相同的褒贬类别”。基于这个思想，他们利用图论的方法对句子之间的褒贬度的一致性进行建模，并采用最小集合的方法来对句子的褒贬度进行分类。　　另一种代表性的方法