- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
微博细粒度主副情感剖析
微博细粒度主副情感剖析
摘要:根据依存句法,分析出句子中词语间的依存关系,找出词语级情感影响因子-副词、否定词,并建立情感元素模型,计算情感元素模型分值。对微博中每句话的情感进行分类,根据粒度分别求和,将最大值所对应的细粒度作为句子的情感的策略,对整条微博则采用句子得分最大的前两句所对应的细粒度作为微博的主副情感策略。在第三届自然语言处理与中文计算会议(NLPCC2014)的微博情绪判别及分类的评测任务中,应用该方法取得了较好效果。
关键词关键词:依存句法;情感元素模型;细粒度;主副情感
中图分类号:TP319 文献标识码:A 文章编号:1672-7800(2016)004-0140-04
0引言
在全媒体时代,网民习惯使用微博来表达自己的思想、行为乃至情感。对微博文本进行情感判定是掌握民意的途径之一,对政府决策可以提供良好的帮助。倾向性分析在各领域都有很好的应用,比如在产品评论方面,可以有效地为购买者提供向导。因此,微博情感倾向性分析已成为自然语言处理的热点方向。
目前,对文本倾向性分析主要有两种思路,一种是基于情感词典,另一种是基于机器学习的方法将文本分类。Kajnp等[1]用WordNet计算特征词与积极和消极种子词间的距离,取最短距离来判断情感极性。Kim等[2]提取文本的评价词语或者组合评价单元,并判断其极性,然后进行极性加权求和。韩忠明等[3]在HowNet情感词典的基础上,采用构建自动机的方法实现了情感分类。姚天?P等[4]在计算中文词汇情感倾向性时不仅考虑了词典中词汇的倾向性,而且分析了词语上下文中的情感倾向。Gamon[5]等以句子为单位,以机器学习方法最常用的朴素贝叶斯作为工具,将情感倾向性分析看作分类问题实现褒贬分析。蔡健平等[6]使用多种机器学习算法,并且结合上下文的语义分析判别情感词在特定环境下的情感倾向,然后再使用朴素贝叶斯分类方法计算句子的情感极性。
一般将情感倾向性看为二分类问题,即褒贬或正负。但也有学者对情感倾向性分析作了更深入的分类,例如Pang[7]将粒度分为3种,Goldberg[8]将粒度分为4种。文献[9]将情感粒度分为7类。本文不仅将情感粒度分为7类,而且将挖掘微博内在含义,根据依存句法,分析出句子中词语间的依存关系,根据词语级情感影响因子――副词、否定词建立情感元素模型。分别对每个情感元素模型进行加权求和操作。对微博中每句话的情感分类,对每种粒度分别进行求和,将最大值所对应的细粒度作为句子的情感的策略,对整条微博则采用句子得分最大的前两句所对应的细粒度作为微博的主副情感。
1情感词提取
1.1情感词来源
根据NLPCC2014评测任务要求,情绪词表使用大连理工大学开发的情绪本体库[10],该本体库将情感词分为7大类21小类,含有情感词共计27466个。7大类分别为乐(happy)、好(like)、怒(anger)、哀(sad)、惧(fear)、恶(disgust)、惊(surprise)。其中7大类作为微博情绪细粒度划分的最终输出结果。 由于微博存在口语化、书写随意、喜欢用网络用语、热词等特征。本文将本体库扩展。
(1)网络情感词。指具有情感倾向的网络流行词语。如:“逼格”、“么么哒”等,其中也包含了用汉语拼音缩写的一些词。如:“TMD”、“BB”等。
(2)表情符号:搜狗拼音输入法中一些常用的表情符号,如:“^_^”表示happy,?t_?s表示愤怒等。新浪微博自带的表情符号。如“[挖鼻屎]”、“[哈哈]”等。
挑出其中具有较强的表征分类能力的词,并人工赋予其情感类别(Sort)、情感强度(Intension)、情感极性(Polarity)。
1.2情感影响因子
对情感词及其所在句子的情感表达的影响程度叫作情感影响因子。按其种类可划分为程度副词、否定词、关联词、具有情感倾向的标点符号,按其作用范围可分为词语级影响因子和句子级影响因子。
1.2.1词语级影响因子
词语级影响因子是指作用于情感词的副词和否定词,对情感词的情感倾向和强弱程度的影响。程度副词以及因子值如表1所示。
否定词的出现,会使对句子情感倾向判断比较复杂,情感词情感的分类取决于否定词和修饰词的顺序和副词是否出现。比如:“你不漂亮”、“你太不漂亮了”、“你不太漂亮了”3句话表达的情感不同,情感强度也不同。故又将有否定含义的情感词分为以下3类:
(1)否定词直接修饰情感词,无论否定词前是否有程度副词修饰,均将其情感极性取反(本文将乐、好归为正向情感,怒、哀、惧、恶、惊归为负向情感)。情感细粒度的划分不是简单的取反。根据汉语语言特点和对标注语料的观察发现,一般正向情感词否定之后情感趋向于负向,负向情感词否定
您可能关注的文档
最近下载
- Wexner便秘评分及罗马三诊断标准.doc VIP
- 施工材料进场检验及存储管理方案.docx VIP
- 双金属温度计与压力式温度计检定规程.pdf
- 成人呼吸道感染病原诊断核酸检测技术临床应用专家共识( 2023.pdf VIP
- 人教版(PEP)新教材小学四年级英语上册Unit 1 Helping at home单元测试卷及答案.docx VIP
- Python程序设计PPT课件(共12章)第11章 正则表达式.pptx VIP
- 红领巾伴我成长主题班会课.pptx VIP
- 路灯安装施工组织设计.pdf VIP
- 初步设计及概算评估咨询服务方案投标文件(技术方案).doc
- 危险性上消化道出血急诊救治快速通道.docx VIP
文档评论(0)