- 1、本文档共52页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于社交理论和不均衡过抽样的短文本情感分析研究与实现
摘 要
短文本的情感分析(Sentiment Analysis Of Short Texts ),是指对富含情感的简短
文本的观点挖掘。短文本的情感分析作为自然语言处理(Nature Language Processing,
NLP )领域的一个重要分支,其目的是将本身带有主观性的简短文本中的情感分为积
极和消极两类,或者更细粒化地分为积极、消极和中立等多种情感类别。短文本的情
感分析在电子政务、舆情监控、个性化推荐等领域发挥着重要的作用。
基于社交理论的短文本情感分析是文本情感分析的重要课题之一。推特是社交媒
体中使用最为广泛的短文本数据来源。推特数据中不仅包含用户间复杂的社交关系,
而且还包含用户评论的短文本信息。这些短文本信息一方面体现了用户对某个主题的
评论观点,另一方面还蕴含丰富的情感信息。目前短文本的情感研究一般只发现了用
户之间简单的朋友关系,未能对用户之间关注与被关注、情感的传播性进行更为深入
的挖掘,且忽略了数据集中存在的类别不均衡现象可能对文本真实情感倾向造成的影
响。本文针对上述问题,进行如下三方面的探索性研究。
1. 结合统计学知识与 SentiWordNet 情感词典,构建一种新的情感计分方法
(Statistics Emotional Lexicon Method ,SELM )。为挖掘更深层次的情感传播性,按照
用户粉丝数量的多少,将用户标记为明星或普通用户。同时,结合当前用户关注的其
他用户数量与该用户粉丝数量的比值,计算出一个社交关系影响分数。用该影响分数
和 SentiWordNet 情感词典一起为推特短文本计算情感得分。采用 SELM 的计分方法,
能将用户之间的社交关系结合到传统的基于词典的情感分析方法中来。与传统的基于
情感词典的方法相比,本文出的 SELM 计分方法使分类准确率有一定程度的高。
2. 采用合成少数类的过抽样技术(Synthetic Minority Oversampling Technique,
SMOTE)解决公开可用的美国医疗保健改革(Health Care Reform ,HCR)数据集上的类
别失衡问题 。在增补后 的数据集上训练一种处理噪声和短文本的社会学方法
(Sociological Approach to handling Noisy and short Texts,SANT),并对 SANT 做出改
进,出 ESANT (Enhance SANT)。与 SANT 不同的是,在对 “信息-信息关系”建
模时,本文增强了用户之间的社交关系,以表示更为深层次的情感传播性。实验证明,
采用 SMOTE 处理数据集之后,能使 SANT 的分类效果更佳。本文出的改进方法
ESANT,能更为清晰地表达用户之间的情感影响,从而更为真实地判断短文本的情
感倾向。与传统基于机器学习的情感分析方法相比较,在分类效果上有较为明显的
升。
3. 结合本文出的 SELM 计分方法,将 HCR 数据集划分为确定集和不确定集,
使用确定集训练出的 ESANT 模型,为不确定集中的推文进行情感分析。实验证明,
结合 SELM 计分方法和 ESANT 模型,能进一步升分类效果。
1
摘 要
关键词:短文本;情感分析;情感传播性;情感计分方法;过抽样
2
基于社交理论和不均衡过抽样的短文本情感分析研究与实现
Abstract
Sentiment analysis of short texts refers to the mining of perspectives on short texts
rich in emotions. Sentiment analysis of short texts is an important branch of the field of
Natural language processin
您可能关注的文档
- 基于动态标准网络的企业竞争力分析.pdf
- 基于动态规划的我国城镇居民医疗保健消费支出行为研究.pdf
- 基于改进果蝇优化算法的欧盟碳价预测.pdf
- 基于改进灰狼算法和SVR的武汉PM2.5浓度预测研究.pdf
- 基于股评的投资者情绪对中国股市的影响研究.pdf
- 基于关键词共现聚类分析的科技能源数据管理系统设计与实现.pdf
- 基于耗散结构理论的基层公务员晋升内卷化研究.pdf
- 基于机器学习的浏览器指纹异常检测模型研究.pdf
- 基于机器学习方法的上证综指预测和分析.pdf
- 基于集成学习的精品旅游服务成单预测研究.pdf
- 2024年江西省高考政治试卷真题(含答案逐题解析).pdf
- 2025年四川省新高考八省适应性联考模拟演练(二)物理试卷(含答案详解).pdf
- 2025年四川省新高考八省适应性联考模拟演练(二)地理试卷(含答案详解).pdf
- 2024年内蒙通辽市中考化学试卷(含答案逐题解析).docx
- 2024年四川省攀枝花市中考化学试卷真题(含答案详解).docx
- (一模)长春市2025届高三质量监测(一)化学试卷(含答案).pdf
- 2024年安徽省高考政治试卷(含答案逐题解析).pdf
- (一模)长春市2025届高三质量监测(一)生物试卷(含答案).pdf
- 2024年湖南省高考政治试卷真题(含答案逐题解析).docx
- 2024年安徽省高考政治试卷(含答案逐题解析).docx
文档评论(0)