- 1、本文档共24页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
基于TF-IDF算法的在线评论情感分类方法研究
摘要
在线评论中的用户情感信息,可能会产生舆论,因此,评论文本情感分类成为公安工作的重点。为高效、快捷地进行文本情感分类,本文提出基于TF–IDF的在线评论情感分类方法。首先,提出TF–IDF算法,以新闻评论文本为研究对象,利用八爪鱼采集器对在线评论文本进行爬取;其次,利用jieba对评论文本进行分词,导入情感词,利用TF–IDF算法计算情感词的TF–IDF值,选取TF–IDF前五名的情感词与情感词典对比,进而进行评论文本情感分类;最后,研究新闻评论的情感倾向。结果表明,基于TF–IDF的在线评论情感分类方法可快速实现评论文本的情感分类。公安机关根据情感偏向,预测新闻事件的舆论走向,制定应对措施,控制事态,推动公安工作有序进行。
关键词:在线评论;情感分类;TF–IDF算法;jieba
目录
TOC\o1-2\h\u86481引言 1
321661.1研究背景及意义 1
150831.2国内外研究现状 2
89751.3研究的基本内容 3
131781.4研究方法 4
280632文本情感分类基础 4
274402.1在线评论情感分类 4
255842.2常用算法 5
12853基于TF-IDF的在线评论文本情感分类 8
83793.1新闻文本内容的获取 8
117533.2文本的预处理 10
35523.3基于TF-IDF算法的情感分类方法 13
77174在线新闻评论的情感分类实验 15
186324.1实验内容 16
129874.2实验过程 16
7034.3实验总结 19
181285总结与展望 20
13345.1总结 20
300555.2展望 20
277参考文献 21
PAGE20
1引言
研究背景及意义
互联网出现后,经历了多次技术革命,普及范围越来越广,网络用户数量越来越多。后来,开发者研究出各类软件和APP,使得用户登上了线上评论平台。用户通过线上评论来表达自己在享受服务过程中的感受,因此网站每天积累了大量的评论信息[1]。到了5G时代,越来越多的领域开始借助大数据来进行日常运转,用户评论的信息爆发出前所未有的价值[2],例如:
随着电子商务业的发展和网络购物平台的兴起,商家根据用户对产品的在线反馈和评价,汲取经验,优化产品。各大新闻网站也纷纷研究出自己的APP,将收集到的原始新闻资料在最短的时间内编辑成实时新闻,发布到APP上,传播社会正能量。用户通过登录APP账号,在线发表自己的观点,体现自己的情感倾向。而这些能够表达情感倾向的评论,往往可以体现舆情走向,而对舆情走向进行判断是公安机关的重要工作。
想要对在线评论进行舆论的判断,就要对在线评论文本进行情感分类,因此,就需要一种方法来完成在线评论的情感分类。
在线评论情感分类,指的是利用计算机技术,自动对评论文本进行情感判别,根据文本的情感偏向对文本进行分类。
但是现阶段,公安机关缺少对在线评论的收集和研究,如果公安机关能够对这些含有情感倾向的评论进行收集、分类、分析,就能判断用户的情感倾向,预测未来是否会产生舆论。若评论文本会产生舆论,公安机关可根据舆论的方向提前制定应对措施,对用户加以引导,消除消极情绪,回应积极反响,控制舆论,维护社会治安,减轻事件对社会的影响,推动公安工作有序进行。
然而,用户发表的评论文本数量增长速度极快,如果靠公安机关工作人员人工搜索收集,工作量极大,时间长、效率低,且不容易进行分类分析。因此,采用计算机技术实现评论文本情感分类的自动化,可在短时间内实现评论文本情感分类,高效、便捷,减轻公安机关工作人员的工作压力,便于评论文本的后续情感分析。
1.2国内外研究现状
目前,在线评论情感分类的研究主要集中在基于情感词典的分类方法、基于情感值分类的方法、基于机器学习的分类方法三个方面[3]。为了更加合理化地判别在线评论所表达的情感,应对情感信息碎和杂的特性,理清在线评论的情感类属,国内外学者对在线评论情感分类方法展开研究。
1.2.1基于情感词典的分类方法
情感词典是在线评论文本中情感词的汇集库,是供在线评论情感分类的检索基础,利用情感词典对收集到的在线评论文本进行识别,再根据一定的规则对文本的情感偏向进行计算和判断。现阶段,存在的情感词典类型包括:基础情感词典、否定词词典、程度副词词典、扩充词典[4]。我国已经研究过的情感词典有:知网HowNet情感词典[5]、台湾大学NTSUD情感词典[6]、大连理工大学信息检索研究室的情感词汇本体[7]、领域情感词典[8-9]等。此外
您可能关注的文档
- 《T市X幼儿园和M幼儿园大班阅读区环境创设现状的问卷调查分析》7600字.docx
- 《T市幼儿园大班阅读区环境创设现状的问卷调查研究》22000字.docx
- 《W电脑公司应收账款管理问题诊断与改进建议》4700字论文.doc
- 《XX超市员工离职对企业发展的影响与对策》7500字论文.doc
- 《XX市工业污染物排放量预测实证分析综述》2200字.docx
- 《X化工厂合成氨中低低变换工艺流程设计与实施》10000字论文.doc
- 《X市工业污染物排放的主成分分析评价案例综述》7800字.docx
- 《奥迪A6L驱动桥结构设计及基于ANSYS的有限元分析》9900字.docx
- 《巴彦淖尔某地区三级公路的工程投标报价设计》8300字.docx
- 《白酒企业人才流失对策研究-以伊力特酒为例开题报告文献综述2800字》.doc
- 《基于VAR模型的融资融券投资者情绪与沪深300收益率关系实证研究》11000字.doc
- 《基于Web的宠物个性化服务系统设计与》4900字.docx
- 《基于Web的电商系统的设计与实现》8700字.doc
- 《基于web的网虫音乐平台系统的设计》8700字.doc
- 《基于单片机的智能热水器系统设计》11000字.docx
- 《基于单片机的智能数字电压表设计》11000字.doc
- 《基于杜邦分析法的冷鲜肉品企业财务问题分析案例—以临沂金锣为例》9800字.doc
- 《基于杜邦分析体系的陇南陇南祥宇油橄榄公司盈利能力分析》8800字.doc
- 《基于多传感器的农田信息采集系统设计》16000字.docx
- 《基于多元线性回归模型的省域金融高质量发展测度实证研究》15000字.docx
文档评论(0)