基于深度学习的短文本情感分析.docxVIP

下载本文档

0
0
约3.52千字
约 7页
2024-09-12 发布于湖北
举报
版权申诉

基于深度学习的短文本情感分析.docx

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于深度学习的短文本情感分析

周孝辉

【摘要】??近些年中国电影市场飞速发展，仅2021年春节档电影票房就破百亿，国内用户选择影片观影时会参考豆瓣电影评分，也会表发影评并打分，由于智能手机的普及，人们大多习惯在各类手机APP或者网站上发表评论，这类评论多为短文本，本文旨在通过对影评的情感分析，结合用户对电影的评分计算出一个更符合用户真实想法的电影评分。该评分可以供用户和影院参考，协助其做出观影决策和排片。相比传统CNN模型，胶囊网络在小型数据集上可以取得更好的效果，并且有更好的鲁棒性以及拟合特征能力。我们先用网络爬虫技术爬取豆瓣影评数据并进行预处理，然后将处理好的数据输入到ALBERT层进行序列化，再将ALBERT层输出的文本特征分别输入到Bi-GRU层和胶囊网络层获取句子全局特征和局部特征并进行特征融合，再经过全连接层进行线性降维，然后将全连接层的输出结果输入到Softmax层进行分类得到对应情感类别，最后结合电影的星级评分计算电影的综合评分。

【关键字】??短文本??情感分析??Bi-GRU??胶囊网络

引言：

情感分析，也称为观点挖掘、意见挖掘、极性分类，本质上是一个情感分类问题，主要研究人们对实体的看法、态度和情感，是自然语言处理领域中的一个重要研究方向。传统的情感分析方法主要是基于机器学习，需要复杂的特征工程，且泛化能力较差，近年来崛起的深度学习方法很好的弥补了基于机器学习方法的缺陷，成为了情感分析的主流方法。

主流的深度学习方法，大多基于CNN模型或者RNN模型，存在着诸多不足：CNN获取信息能力取决于卷积核窗口长度，捕获能力有限，且不能学习上下文信息;RNN容易出现梯度消失或者梯度爆炸现象。由于这些原因，胶囊网络（CapsuleNetwork）、长短期记忆网络（LSTM）、门控循环单元（GRU）、双向长短期记忆网络（Bi-LSTM）等变体开始流行。本文提出一种基于深度学习的短文本情感分析方法。

一、模型结构

情感分析属于自然语言处理领域，本文提出的模型结构如图1所示，主要分为以下模块：

1.文本预处理模块：通过网络爬虫技术爬取豆瓣影评T，进行清洗和预处理操作使文本结构化得到数据T1，预处理操作包括去特殊符号、去英文、去数字、去停用词和中文分词。

2.词向量嵌入模块：使用预训练好的ALBERT模型对结构化数据进行序列化，得到文本对应的序列S。

3.征提取模块：包括Bi-GRU层、胶囊网络层和特征融合层，其中Bi-GRU层提取文本的全局特征，将序列S分别输入前向GRU层和后向GRU层中进行训练得到向量表示和，将两者叠加得到向量F1;膠囊网络层用于提取文本的局部特征，将序列S输入到胶囊网络层，使用动态路由算法进行特征提取，得到特征向量F2;特征融合层，将特征向量F1和F2向量进行特征融合，得到新的特征向量F3。

4.全连接层：用于将上一层输出F3全连接至本层的输出神经元，输出一个特征向量V。

5.Softmax分类层：用于将全连接层输出的特征向量V进行归一化，得到文本对应每一类的概率矩阵M，M的最大值索引即文本对应的情感标签，包括好评，中评和差评，分别对应数值“5”，“3”和“1”。

6.输出层：综合用户对影片的评分和文本对应的情感标签对影片进行评价，用户对影片的打分为X1，如果评分缺失设定X1为0，基于情感分析的影评评分为X2，影片的最终评分计算公式如下：

二、算法介绍

2.1文本预处理

2.1.1网络爬虫

网络爬虫技术，也叫爬虫程序，是自动搜索并下载互联网资源的程序或脚本。通常可以分为四类：主题网络爬虫、通用网络爬虫、增量式爬虫和深层网络爬虫。本方法使用的主题爬虫能只抓取预定义主题相关的页面，避免了无效信息的干扰。

网络爬虫可以用JAVA、PHP、Python等各种语言实现，由于Python拥有脚本语言中最丰富的类库，我们使用Python的Selenium库模拟主流浏览器的运行，实现模拟登陆、自动翻页，自动点击等交互操作。

2.1.2去停用词

文本中存在着大量与文章主题无关的字母、标点、助词等，如“你”、“了”、“的”等，进行预处理时将这些删除以免对文本分类结果造成影响。

2.1.3中文分词

词对于中文来说是表示语义的最小单元，和英文用空格隔开不同，词与词之间没有天然分隔，对于计算机理解较困难，分词尤为重要。我们选用的jieba分词工具，是一种免费开源的分词工具，支持精确模式、全模式和搜索引擎模式三种分词模式：精确模式，试图将句子最精确地切开，适合文本分析;全模式，把句子中所有的可以成词的词语都扫描出来，速度非常快，但是不能解决歧义;搜索引擎模式，在精确模式的基础上，对长词再词切分，提高召回率，适合用于搜索引擎分词。

2.2ALBERT

常用的Word2Vec模型

您可能关注的文档

文档评论（0）

134****4182 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

基于深度学习的短文本情感分析.docxVIP