基于投票机制语句倾向性判定方法.docVIP

下载本文档

5
0
约7.57千字
约 15页
2018-08-29 发布于福建
举报
版权申诉

基于投票机制语句倾向性判定方法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于投票机制语句倾向性判定方法

基于投票机制语句倾向性判定方法　　摘要：随着互联网的快速发展，门户网站、博客、论坛迸发式涌现，如新浪、腾讯、凤凰、搜狐、网易等，每天都会发布大量新闻，这些新闻很多具有倾向性，倾向性判断对了解社会动态和舆情状况有很重要的作用。使用特征工程方法抽取倾向关键句，在进行极性判别时，主要考虑4个特征：褒义情感词比例、贬义情感词比例、贬义情感词极性乘积、所有情感词极性求和，并训练多个分类器，分别进行语句倾向性判定。针对单一分类方法分类效果不佳的问题，提出了基于投票机制的多分类器融合算法。实验结果表明，该方法能对倾向关键句极性进行很好的分类，达到了预期效果。　　关键词关键词：倾向关键句；情感判别；投票机制；多分类器融合算法　　中图分类号：TP301 　　文献标识码：A文章编号文章编号：1672-7800（2016）004-0001-04 　　0引言　　随着互联网的高速发展，新闻、论坛等网络媒体也快速发展，并成为网络信息的重要载体[1]。新闻等网络媒体中每天都会产生大量数据，快速获取其中的情感态度，能够实时掌握舆情动态和热点事件，对了解社会舆情具有重要作用[2]。　　针对情感关键句抽取问题，王伟等[3]按信息含量对新闻进行分类，并结合句子词频属性、长度属性、位置属性、与相似度等特征来计算句子重要程度，从而抽取出情感关键句；林政等[4]考虑了情感词个数，句子位置信息和句子中关键词信息，来确定情感关键句。赵虹杰等[5]在林政等[4]提出的情感属性、位置属性和关键词属性的基础上，加入了句子与相关性属性，其采用自动文摘技术获取新闻中的关键词，然后对新闻进行扩充，从而计算句子与的相似度。　　然而，使用自动文摘技术，会将句子中的信息加入到中，在进行主题相关性分析时，会偏向于某些句子，产生噪声。因此，在进行主题相关性分析时，将和句子进行向量化处理，以计算句子与的相关性。　　关于情感关键句极性判定的研究方法有很多，主要分为两大类。一类是语义分析方法，丁建立等[6]使用语义字典，改进现有的词语相似度计算方法，并结合同义词词林，来计算词语的倾向性；Turney等[7]提出了一种基于HNC概念的语义相似度计算方法，来计算语句的倾向性。另一类是机器学习分析方法，机器学习方法又分为有监督学习、无监督学习和半监督学习。在有监督的学习方法中，Pang等[8]针对电影评论，使用朴素贝叶斯方法、最大熵方法、支持向量机，分别对其进行极性分类，并且比较了不同方法的分类效果；Li等[9]将文本分为主观文本和客观文本，分别训练出不同的分类器，再融合不同的分类器，然后使用新分类器对文本进行分类，取得了良好分类效果；Tang等[10]利用深度学习方法，抽取出句子的常见特征，再进行分类，也取得了良好分类效果。在无监督的学习方法中，Socher等[11]使用递归矩阵进行分析处理，在已标注的数据上作情感极性分类，取得了很好效果；在半监督学习方法中，Socher等[12]先将文本向量化，使用RNN进行分类，得到分类结果；Yessenalina等[13]先将文本进行向量化，然后存储在特征空间中，通过矩阵运算来进行情感分类。　　以上研究中，所使用的方法是对多种算法进行比较，从而找到最好的分类方法，或者对某一种算法进行优化。但是利用单一算法进行分类已经遇到了瓶颈，而将多种算法进行融合则是新的突破点。陈慧杰等[14]使用大数投票法构建多分类器投票机制进行人体姿态识别，提高了识别的准确率；王建等[15]融合了图核、SVM和ME分类器，采用文档级别的十倍交叉验证方法，提高了蛋白质交互作用关系抽取的性能；顾伟等[16]提出了一种结合贝叶斯分类规则与Fisher线性判别分析，通过加权相似度求和策略，实现对多个分类器进行融合的一种综合性人脸识别算法，取得了很好的分类效果。　　机器学习方法适用于大规模语料，但是不同的分类方法对文本的分类效果不同。将这些不同的算法融合在一起，一种有效的方式是投票机制。对某一文本，使用不同的算法进行一次处理，然后统计投票情况，将投票最多的分类结果作为最终分类结果。　　1预处理　　倾向关键句涵盖了整个文本的中心思想，是阐明文本观点的句子，也是文本内容的集中体现。判断一个句子是否是倾向关键句，由句子中的情感词、句子位置、关键词以及与的相似度共同决定。因此提取文本倾向关键句，首先需要计算句子中每个特征的特征值，然后根据每个特征的重要程度来确定特征的重要程度，最终确定文本的倾向关键句。提取文本倾向关键句的具体流程如图1所示。　　1.1预处理　　本文对COAE2014评测任务1发布的新闻语料进行预处理，对于语料中带有噪音，如后缀名不正确、命名不正确以及内容为空的语料进行删除操作，对剩余新闻文本进行采样操作。　　1.2构建停用词库