基于多类别语义词簇新闻读者情绪分类.docVIP

下载本文档

14
0
约1.32万字
约 23页
2018-08-29 发布于福建
举报
版权申诉

基于多类别语义词簇新闻读者情绪分类.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于多类别语义词簇新闻读者情绪分类

基于多类别语义词簇新闻读者情绪分类　　摘要：分析和研究文本读者情绪有助于发现互联网的负面信息，是舆情监控的重要组成部分。考虑到引起读者不同情绪主要因素在于文本的语义内容，如何抽取文本语义特征因此成为一个重要问题。针对这一问题，提出首先使用word2vec模型对文本进行初始的语义表达；在此基础上结合各个情绪类别分别构建有代表性的语义词簇，进而采用一定准则筛选对类别判断有效的词簇，从而将传统的文本词向量表达改进为语义词簇上的向量表达；最后使用多标签分类方法进行情绪标签的学习和分类。实验结果表明，该方法相对于现有的代表性方法来说能够获得更好的精度和稳定性。　　关键词：情感分析；情绪分类；语义词簇；多标签学习；word2vec 　　中图分类号：TP391 　　文献标志码：A 　　0引言　　随着Web2.0的到来，在互联网上获得大量新闻语料及读者的评论文本和情绪标签已经成为一件轻而易举的事情。通过对文本情绪的分析，能够让我们更加清楚了解文本给人们日常生活带来的影响，有助于监控和定位特殊情绪的传播[1]。近年来，大量情感文本的出现使得情感分析已经成为了文本挖掘的热点。整体而言，情感分析的研究分为两大类。　　一类是文本的直接情感分析，一般定义为文本直接呈现出的情感极性，主要是作者写作时的情感，包括正面和负面的态度，通常采用单标签及极性度量表示，目前的主流方法包括：　　1）简单的基于情感词典极性词的研究。例如，Hatzivassiloglou等[2]从大语料库华尔街日报（Wall Street Journal）中发掘出大量的形容词性的评价词语；周咏梅等[3]通过新闻评论语料和基础情感词典获得评论情感词集和种子词，判定评论情感词集的极性并计算其强度，进而构建新闻评论情感词典。2）较为复杂的基于情感句或篇章的研究。例如，Tang等[4-5]通过构建情感词典和情感三元组研究篇章集的情感分析。　　另外一类是针对文本所可能引发的读者情绪的研究。情绪分析强调的是个体自身的情绪变化，如喜、怒、哀、乐、悲等，在分析时需要综合考虑多个方面的信息，相对于热门的文本直接情感的研究，读者情绪的研究是一个更加困难的工作，目前仍处于起步的阶段，各种研究技术存在一定的缺陷，主要采用多标签的方式表示读者的情绪，标签之间并不是互斥关系，可以同时存在。例如，2010年，Quan等[6]研究句子层面上的文本情绪分类问题，将句子的情绪分类问题看成是多标签文本分类。首先基于标注文档集抽取每类情绪词集合，利用线性核函数方法计算句子与每类情绪词集合之间的相似度，根据预设定的阈值确定句子的情绪类别。哈工大徐睿峰团队[7-9]认为情绪分析、情绪归因、情绪预测和情绪个性化建模这四个问题之间并不是孤立的，而是相互联系的，因此提出了基于“刺激认知反射输出”机制的文本情绪计算[7-8]以及用隐含狄利克雷分配（Latent Dirichlet Allocation， LDA）模型进行多标签的情绪分析。　　通过对读者情绪的研究分析，可以让我们实时监控网上的文本信息，及时发现负面信息，趁早介入，避免负面信息给社会带来大的影响。传统的舆情监控主要采用监控关键词以及热点分析的办法，但是这样的方式有一定的缺陷，因为热点事件表明该事件已经发生，并且对社会造成了一定的影响，采用热点分析的方法会有一定的延时，所需要的代价也更大。相反，采用情绪分析的方法，可以更快地预测文本可能给读者带来的情绪，及早发现并解决问题。此外，情感分析还能够用于信息检索中[10]。　　考虑到不同的读者在阅读时由于个人经历以及思维的不同所产生的情绪也不尽相同，甚至同样一篇文章可能给不同的读者带来完全相反的情绪，或者是同一个读者可能同时产生多种情绪，包括人们的各种情感色彩和情感倾向性，如喜、怒、哀、乐和批评、赞扬等。显然，仅仅从作者的角度出发采用单标签的方式研究人们阅读文本后产生的情绪，逻辑上是不够严密的。因此，本文主要关注的是读者阅读完新闻以后可能产生的情绪，采用多标签的方式对文本进行情绪的分析及预测。为了更够获得更好的效果，我们需要做的是结合文档的上下文信息以及标签信息，对文档进行特征提取，然后将特征放入到合适的分类器中进行训练预测以及效果的评估。　　1相关工作　　读者情绪受到两个要素影响：其一是读者阅读的文本自身所包含的内容；其二是读者个体是否易激发某种情绪的特性（简称其为“个体信息”）。由于读者的个体信息不容易被采集和量化，当前面向文本的读者情绪预测通常被建模成一类特殊的文本分类问题，认为分类后的文本所属的情绪类别即为读者可能产生的情绪，从而完成读者的情绪预测问题[11-12]。采用这种方式研究读者的情绪，需要解决两个关键的问题：第一个是如何表达文本可能引起读者某类情绪的属性；第二个是如何设