- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
细粒度微博情绪识别集成算法研究
细粒度微博情绪识别集成算法研究
摘 要:目前大部分微博情绪分析研究集中在粗粒度情绪的划分,但细粒度微博情绪更能反映公众对舆论热点、政策的反应。因此提出了一种结合朴素贝叶斯和K最近邻的集成算法,着重对新浪微博展开了情绪识别与分析的研究。首先采用朴素贝叶斯分类算法将微博分为有无情绪两类。然后根据情绪本体库的分类规则,分别构建待预测微博和已标注微博的21维情绪向量。最后采用K最近邻算法,计算待预测情绪微博与已标注情绪微博的向量相似度,从而获取待预测微博的细粒度情绪。实验表明K最近邻算法的引入,在微博细粒度情绪识别的准确率上取得了较好的效果。
关键词:情绪分析;细粒度;朴素贝叶斯;K最近邻;微博
中图分类号:TP391 文献标识码:A 文章编号:2095-2163(2015)01-
Abstract: Currently, most sentiment analysis of micro-blog has been focused on coarse-grained sentiment analysis, but fine-grained sentiment is better for reflecting the opinion of the public when they are facing the social focus. Therefore, an integrated algorithm which is a combination of Naive Bayes and K-Nearest Neighbor is put forward, which has been applied to the sentiment recognition and analysis of sina microblog. First, microblog is classified into two types: sentiment and non- sentiment by using Bayesian classification algorithm. And then a 21 dimension vector is built for the predicted and the marked microblog on the basis of the sentiment ontology. Finally the vector similarity between the predicted microblog and the marked ones is calculated by using K-nearest neighbor algorithm, which could help to identify the fine-grained sentiment of microblog. Experimental results show that a good result is achieved in fine-grained sentiment recognition of microblog based on the combination of Naive Bayes and K-nearest neighbor algorithm.
Keywords: Sentiment Analysis; Fine-grained; Native Bayes; K-Nearest Neighbor; Microblog
0 引 言
近年来,Web2.0技术获得了迅速发展,而与此同时,微博作为一种新兴的网络交流媒介,正因其独具的及时性、简洁性和对信息传播的便捷性特点[1],心音了越来越多的使用者和研究者。以国内的新浪微博为例,目前其上的注册用户已超过3亿,用户每日的发博量则突破1亿条[2]。微博中用户发表的大量信息直接反映了该用户本体对某个事件或者政府出台的某项政策的反应和倾向。而且,情绪作为人的内心感受和表达,在判读其对事物的观点倾向具有重要作用[3]。可以说微博中涉及到的任何观点都与作者的情绪有着紧密的联系,因而开展微博情绪的识别和划分研究对于分析微博中海量的评论信息即具有实际现实的参考价值。但目前大部分的微博情绪分析却只是集中在粗粒度的情绪划分(也就是有无情绪的判断),这在某些情况下已经无法满足对文本信息处理的高精要求。基于此,本文根据对目前分类方法的研究提出了一种用于对微博进行细粒度情绪划分(也就是文本情绪具体类别)的集成算法。具体来说,就是对于一条微博,先识别其是否包含情绪,而对于包含情绪的微博,则需判别其具体的情绪分类。
本文第0节分析了微博情绪识别的背景和意义,简要
您可能关注的文档
最近下载
- NB∕T 32037-2017 光伏发电建设项目文件归档与档案整理规范.pdf VIP
- 《我的鞋带我会系》小学一年级劳动教育PPT课件.ppt VIP
- 新发展研究生英语视听说-Unit1-Personality-Traits.ppt VIP
- 焦化厂工艺安全知识培训课件.pptx VIP
- 10-铁路运送行李、包裹.pptx VIP
- 英烈传大明山莺列传.pdf VIP
- 中国帕金森病治疗指南(第四版):精神及认知障碍的治疗.pdf VIP
- SL∕T 618-2021 水利水电工程可行性研究报告编制规程.pdf
- MSA-GRR数据自动生成工具.xls VIP
- 《“喜迎新中国成立76周年”国庆主题》课件.pptx VIP
文档评论(0)