- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
?
?
基于深度学习的短文本情感分析
?
?
周孝辉
【摘要】??近些年中国电影市场飞速发展,仅2021年春节档电影票房就破百亿,国内用户选择影片观影时会参考豆瓣电影评分,也会表发影评并打分,由于智能手机的普及,人们大多习惯在各类手机APP或者网站上发表评论,这类评论多为短文本,本文旨在通过对影评的情感分析,结合用户对电影的评分计算出一个更符合用户真实想法的电影评分。该评分可以供用户和影院参考,协助其做出观影决策和排片。相比传统CNN模型,胶囊网络在小型数据集上可以取得更好的效果,并且有更好的鲁棒性以及拟合特征能力。我们先用网络爬虫技术爬取豆瓣影评数据并进行预处理,然后将处理好的数据输入到ALBERT层进行序列化,再将ALBERT层输出的文本特征分别输入到Bi-GRU层和胶囊网络层获取句子全局特征和局部特征并进行特征融合,再经过全连接层进行线性降维,然后将全连接层的输出结果输入到Softmax层进行分类得到对应情感类别,最后结合电影的星级评分计算电影的综合评分。
【关键字】??短文本??情感分析??Bi-GRU??胶囊网络
引言:
情感分析,也称为观点挖掘、意见挖掘、极性分类,本质上是一个情感分类问题,主要研究人们对实体的看法、态度和情感,是自然语言处理领域中的一个重要研究方向。传统的情感分析方法主要是基于机器学习,需要复杂的特征工程,且泛化能力较差,近年来崛起的深度学习方法很好的弥补了基于机器学习方法的缺陷,成为了情感分析的主流方法。
主流的深度学习方法,大多基于CNN模型或者RNN模型,存在着诸多不足:CNN获取信息能力取决于卷积核窗口长度,捕获能力有限,且不能学习上下文信息;RNN容易出现梯度消失或者梯度爆炸现象。由于这些原因,胶囊网络(CapsuleNetwork)、长短期记忆网络(LSTM)、门控循环单元(GRU)、双向长短期记忆网络(Bi-LSTM)等变体开始流行。本文提出一种基于深度学习的短文本情感分析方法。
一、模型结构
情感分析属于自然语言处理领域,本文提出的模型结构如图1所示,主要分为以下模块:
1.文本预处理模块:通过网络爬虫技术爬取豆瓣影评T,进行清洗和预处理操作使文本结构化得到数据T1,预处理操作包括去特殊符号、去英文、去数字、去停用词和中文分词。
2.词向量嵌入模块:使用预训练好的ALBERT模型对结构化数据进行序列化,得到文本对应的序列S。
3.征提取模块:包括Bi-GRU层、胶囊网络层和特征融合层,其中Bi-GRU层提取文本的全局特征,将序列S分别输入前向GRU层和后向GRU层中进行训练得到向量表示和,将两者叠加得到向量F1;膠囊网络层用于提取文本的局部特征,将序列S输入到胶囊网络层,使用动态路由算法进行特征提取,得到特征向量F2;特征融合层,将特征向量F1和F2向量进行特征融合,得到新的特征向量F3。
4.全连接层:用于将上一层输出F3全连接至本层的输出神经元,输出一个特征向量V。
5.Softmax分类层:用于将全连接层输出的特征向量V进行归一化,得到文本对应每一类的概率矩阵M,M的最大值索引即文本对应的情感标签,包括好评,中评和差评,分别对应数值“5”,“3”和“1”。
6.输出层:综合用户对影片的评分和文本对应的情感标签对影片进行评价,用户对影片的打分为X1,如果评分缺失设定X1为0,基于情感分析的影评评分为X2,影片的最终评分计算公式如下:
二、算法介绍
2.1文本预处理
2.1.1网络爬虫
网络爬虫技术,也叫爬虫程序,是自动搜索并下载互联网资源的程序或脚本。通常可以分为四类:主题网络爬虫、通用网络爬虫、增量式爬虫和深层网络爬虫。本方法使用的主题爬虫能只抓取预定义主题相关的页面,避免了无效信息的干扰。
网络爬虫可以用JAVA、PHP、Python等各种语言实现,由于Python拥有脚本语言中最丰富的类库,我们使用Python的Selenium库模拟主流浏览器的运行,实现模拟登陆、自动翻页,自动点击等交互操作。
2.1.2去停用词
文本中存在着大量与文章主题无关的字母、标点、助词等,如“你”、“了”、“的”等,进行预处理时将这些删除以免对文本分类结果造成影响。
2.1.3中文分词
词对于中文来说是表示语义的最小单元,和英文用空格隔开不同,词与词之间没有天然分隔,对于计算机理解较困难,分词尤为重要。我们选用的jieba分词工具,是一种免费开源的分词工具,支持精确模式、全模式和搜索引擎模式三种分词模式:精确模式,试图将句子最精确地切开,适合文本分析;全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义;搜索引擎模式,在精确模式的基础上,对长词再词切分,提高召回率,适合用于搜索引擎分词。
2.2ALBERT
常用的Word2Vec模型
您可能关注的文档
- 基于计算机数据处理技术在经济领域的应用研究.docx
- 基于物联网的农作物管理系统的研究与设计.docx
- 基于民航大数据分析下的民航经济运营模式探讨.docx
- 基于校企合作的3+1人才培养模式的探究.docx
- 基于智慧交通的扬州市交通拥堵治理研究.docx
- 基于数控流水线技术的开放式数控系统(上).docx
- 基于微信平台的家校共育问题及应对策略.docx
- 24.3 第1课时 锐角三角函数 华师大版数学九年级上册课件.pptx
- 2024届中考数学一次函数天天练(9)及答案.docx
- 2025届高考数学复习压轴小题专项(平面向量疑难问题)好题练习(附答案).pdf
- 安全操作规程汇编(汇总).doc
- 陕西省西安市长安区2024届九年级下学期中考二模数学试卷(含答案).docx
- 第3章 一元一次不等式 浙教版数学八年级上册单元培优测试卷(含答案).docx
- 云南省昭通市永善县2024届九年级下学期中考一模数学试卷(含答案).docx
- 北师大版数学七年级上册 第4章 第37课时 比较线段的长短习题课件.pptx
- 24.2 直角三角形的性质 华师大版数学九年级上册课件.pptx
- 2024届中考数学一次函数天天练(7)及答案.docx
- 24.4 解直角三角形 华东师大版数学九年级上册教案3.docx
- 云南省昭通市彝良县2024届九年级下学期中考二模数学试卷(含解析).docx
- 西藏日喀则市亚东县2024届九年级下学期中考一模数学试卷(含答案).docx
文档评论(0)