基于社交理论和不均衡过抽样的短文本情感分析研究与实现.pdf

基于社交理论和不均衡过抽样的短文本情感分析研究与实现.pdf

  1. 1、本文档共52页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于社交理论和不均衡过抽样的短文本情感分析研究与实现 摘 要 短文本的情感分析(Sentiment Analysis Of Short Texts ),是指对富含情感的简短 文本的观点挖掘。短文本的情感分析作为自然语言处理(Nature Language Processing, NLP )领域的一个重要分支,其目的是将本身带有主观性的简短文本中的情感分为积 极和消极两类,或者更细粒化地分为积极、消极和中立等多种情感类别。短文本的情 感分析在电子政务、舆情监控、个性化推荐等领域发挥着重要的作用。 基于社交理论的短文本情感分析是文本情感分析的重要课题之一。推特是社交媒 体中使用最为广泛的短文本数据来源。推特数据中不仅包含用户间复杂的社交关系, 而且还包含用户评论的短文本信息。这些短文本信息一方面体现了用户对某个主题的 评论观点,另一方面还蕴含丰富的情感信息。目前短文本的情感研究一般只发现了用 户之间简单的朋友关系,未能对用户之间关注与被关注、情感的传播性进行更为深入 的挖掘,且忽略了数据集中存在的类别不均衡现象可能对文本真实情感倾向造成的影 响。本文针对上述问题,进行如下三方面的探索性研究。 1. 结合统计学知识与 SentiWordNet 情感词典,构建一种新的情感计分方法 (Statistics Emotional Lexicon Method ,SELM )。为挖掘更深层次的情感传播性,按照 用户粉丝数量的多少,将用户标记为明星或普通用户。同时,结合当前用户关注的其 他用户数量与该用户粉丝数量的比值,计算出一个社交关系影响分数。用该影响分数 和 SentiWordNet 情感词典一起为推特短文本计算情感得分。采用 SELM 的计分方法, 能将用户之间的社交关系结合到传统的基于词典的情感分析方法中来。与传统的基于 情感词典的方法相比,本文出的 SELM 计分方法使分类准确率有一定程度的高。 2. 采用合成少数类的过抽样技术(Synthetic Minority Oversampling Technique, SMOTE)解决公开可用的美国医疗保健改革(Health Care Reform ,HCR)数据集上的类 别失衡问题 。在增补后 的数据集上训练一种处理噪声和短文本的社会学方法 (Sociological Approach to handling Noisy and short Texts,SANT),并对 SANT 做出改 进,出 ESANT (Enhance SANT)。与 SANT 不同的是,在对 “信息-信息关系”建 模时,本文增强了用户之间的社交关系,以表示更为深层次的情感传播性。实验证明, 采用 SMOTE 处理数据集之后,能使 SANT 的分类效果更佳。本文出的改进方法 ESANT,能更为清晰地表达用户之间的情感影响,从而更为真实地判断短文本的情 感倾向。与传统基于机器学习的情感分析方法相比较,在分类效果上有较为明显的 升。 3. 结合本文出的 SELM 计分方法,将 HCR 数据集划分为确定集和不确定集, 使用确定集训练出的 ESANT 模型,为不确定集中的推文进行情感分析。实验证明, 结合 SELM 计分方法和 ESANT 模型,能进一步升分类效果。 1 摘 要 关键词:短文本;情感分析;情感传播性;情感计分方法;过抽样 2 基于社交理论和不均衡过抽样的短文本情感分析研究与实现 Abstract Sentiment analysis of short texts refers to the mining of perspectives on short texts rich in emotions. Sentiment analysis of short texts is an important branch of the field of Natural language processin

您可能关注的文档

文档评论(0)

136****6583 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:7043055023000005

1亿VIP精品文档

相关文档