基于投票机制语句倾向性判定方法.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于投票机制语句倾向性判定方法

基于投票机制语句倾向性判定方法   摘要:随着互联网的快速发展,门户网站、博客、论坛迸发式涌现,如新浪、腾讯、凤凰、搜狐、网易等,每天都会发布大量新闻,这些新闻很多具有倾向性,倾向性判断对了解社会动态和舆情状况有很重要的作用。使用特征工程方法抽取倾向关键句,在进行极性判别时,主要考虑4个特征:褒义情感词比例、贬义情感词比例、贬义情感词极性乘积、所有情感词极性求和,并训练多个分类器,分别进行语句倾向性判定。针对单一分类方法分类效果不佳的问题,提出了基于投票机制的多分类器融合算法。实验结果表明,该方法能对倾向关键句极性进行很好的分类,达到了预期效果。   关键词关键词:倾向关键句;情感判别;投票机制;多分类器融合算法   中图分类号:TP301   文献标识码:A文章编号文章编号:1672-7800(2016)004-0001-04   0引言   随着互联网的高速发展,新闻、论坛等网络媒体也快速发展,并成为网络信息的重要载体[1]。新闻等网络媒体中每天都会产生大量数据,快速获取其中的情感态度,能够实时掌握舆情动态和热点事件,对了解社会舆情具有重要作用[2]。   针对情感关键句抽取问题,王伟等[3]按信息含量对新闻进行分类,并结合句子词频属性、长度属性、位置属性、与相似度等特征来计算句子重要程度,从而抽取出情感关键句;林政等[4]考虑了情感词个数,句子位置信息和句子中关键词信息,来确定情感关键句。赵虹杰等[5]在林政等[4]提出的情感属性、位置属性和关键词属性的基础上,加入了句子与相关性属性,其采用自动文摘技术获取新闻中的关键词,然后对新闻进行扩充,从而计算句子与的相似度。   然而,使用自动文摘技术,会将句子中的信息加入到中,在进行主题相关性分析时,会偏向于某些句子,产生噪声。因此,在进行主题相关性分析时,将和句子进行向量化处理,以计算句子与的相关性。   关于情感关键句极性判定的研究方法有很多,主要分为两大类。一类是语义分析方法,丁建立等[6]使用语义字典,改进现有的词语相似度计算方法,并结合同义词词林,来计算词语的倾向性;Turney等[7]提出了一种基于HNC概念的语义相似度计算方法,来计算语句的倾向性。另一类是机器学习分析方法,机器学习方法又分为有监督学习、无监督学习和半监督学习。在有监督的学习方法中,Pang等[8]针对电影评论,使用朴素贝叶斯方法、最大熵方法、支持向量机,分别对其进行极性分类,并且比较了不同方法的分类效果;Li等[9]将文本分为主观文本和客观文本,分别训练出不同的分类器,再融合不同的分类器,然后使用新分类器对文本进行分类,取得了良好分类效果;Tang等[10]利用深度学习方法,抽取出句子的常见特征,再进行分类,也取得了良好分类效果。在无监督的学习方法中,Socher等[11]使用递归矩阵进行分析处理,在已标注的数据上作情感极性分类,取得了很好效果;在半监督学习方法中,Socher等[12]先将文本向量化,使用RNN进行分类,得到分类结果;Yessenalina等[13]先将文本进行向量化,然后存储在特征空间中,通过矩阵运算来进行情感分类。   以上研究中,所使用的方法是对多种算法进行比较,从而找到最好的分类方法,或者对某一种算法进行优化。但是利用单一算法进行分类已经遇到了瓶颈,而将多种算法进行融合则是新的突破点。陈慧杰等[14]使用大数投票法构建多分类器投票机制进行人体姿态识别,提高了识别的准确率;王建等[15]融合了图核、SVM和ME分类器,采用文档级别的十倍交叉验证方法,提高了蛋白质交互作用关系抽取的性能;顾伟等[16]提出了一种结合贝叶斯分类规则与Fisher线性判别分析,通过加权相似度求和策略,实现对多个分类器进行融合的一种综合性人脸识别算法,取得了很好的分类效果。   机器学习方法适用于大规模语料,但是不同的分类方法对文本的分类效果不同。将这些不同的算法融合在一起,一种有效的方式是投票机制。对某一文本,使用不同的算法进行一次处理,然后统计投票情况,将投票最多的分类结果作为最终分类结果。   1预处理   倾向关键句涵盖了整个文本的中心思想,是阐明文本观点的句子,也是文本内容的集中体现。判断一个句子是否是倾向关键句,由句子中的情感词、句子位置、关键词以及与的相似度共同决定。因此提取文本倾向关键句,首先需要计算句子中每个特征的特征值,然后根据每个特征的重要程度来确定特征的重要程度,最终确定文本的倾向关键句。提取文本倾向关键句的具体流程如图1所示。   1.1预处理   本文对COAE2014评测任务1发布的新闻语料进行预处理,对于语料中带有噪音,如后缀名不正确、命名不正确以及内容为空的语料进行删除操作,对剩余新闻文本进行采样操作。   1.2构建停用词库  

文档评论(0)

fangsheke66 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档