- 0
- 0
- 约3.17千字
- 约 8页
- 2026-03-11 发布于湖北
- 举报
PAGE1
文本情感分析相关技术综述
1.1文本数据预处理
1.1.1文本分词
中文文本和英文文本有一个巨大的区别,英文单词之间是用空格符隔开的,因此可以通过对空格进行分割,得到一个个的单词。而中文的语句是字字相连的,并且单词的组成可能是由一个或多个字符组成的,这就给单词的切分带来了很大的困难。并且中文词组的搭配是不固定的,还存在着一词多义的问题,如何准确分析句意和语义,将中文语句正确完整的分割成为一个个单词,是我们面临最大的难题,本文使用的方法是“结巴”中文分词。
jieba中文分词方法主要包含了三种模式:精准模式、全模式和搜索引擎模式REF_Ref29478\r\h[10]。精准模式适合做文本分析,能够精确精准的将文本分割开来;全模式适合快速粗略的切分出所有词,特点是速度快,但不能解决歧义;搜索引擎模式适合搜索引擎分词,速度较慢,但是基于精准模式的基础上,对长词再进行切分,能够提高召回率。
经过jieba分词后的文本数据,每一条评论都变成了一个个的单词,这些单词就是文本最基本的单元。当我们分别用一句完整的话进行表达和用一句话中的几个关键词表达时,对方除了听起来会感到差距外,对于句意的理解其实差别并不大,这是因为句子中有许多词是文本中出现频率很高,但实际又不存在太多意思的词,我们可以选择对这些词语进行剔除,可能会破坏句子的完整性,但并不妨碍对于意思的理解。并且文本是要转化后导入计算机的,计算机是不需要句子结构的完整的,当我们去掉一些停用词后,文本内容反而更精简了,更有利于分析了。
为了增加信息检索中的存储空间,提高信息检索的效率,停用词应运而生。在自然语言领域,数据在进行预处理之前,需要先将某些字或词过滤筛选掉,以便后期的分析。这些被筛选的字或词就被称为StopWords。停用词表的构建完全是基于人工输入的,人们将一些对句子段落影响不大,删除后基本不影响语义理解的词语,加入到停用词中。但是没有哪一个停用词表是固定不变,适用于所有领域的。因此在很多时候,研究的内容不一样,就要对应的生成相应的停用词表,这样才能对数据处理的更加精准。
1.1.2词向量技术
词向量技术是一种采用神经网络来训练词向量的技术,它在训练后可以用来处理词与词之间的关系,处理的方法通常采用一个三层或多层的神经网络结构,这些神经网络结构分为输入层,隐层和输出层。
Word2Vec算法可以在捕捉语境信息的同时压缩数据规模。其中,谷歌提供的word2vec工具包含了CBOW和Skip-gram两种语言模型中,这两个模型均包含输入层、投影层和输出层。
CBOW(ContinuousBag-of-WordModel)又被称为连续词袋模型,是一个三层神经网络模型,与前向NNLM类似,不同之处在于CBOW模型把非线性隐层去掉了,并且所有单词共享隐层。CBOW模型通过上下文的联系来预测当前词,对预测模型:
(1.1)
其学习目标是最大化对数似然函数为:
(1.2)
其中,w表示语料库C中的任何单词。
图1.1CBOW的语言模型结构
与其相反,Skip-gram模型则是改变了CBOW模型中的原因和结果,CBOW模型通过上下文的联系来预测当前词,而CBOW模型则是通过当前词来预测其上下文的单词。
图1.2sikp-garm的语言模型结构
1.2深度学习相关技术
1.1.1卷积神经网络模型
卷积神经网络模型是一类包含卷积计算且具有深度结构的前馈神经网络,内部各层之间单向传播,传播方向为从输入层到输出层。由于具有能够避免复杂前期预处理工作的能力,目前卷积神经网络已经得到广泛应用,计算机视觉、语义分割、文本分类、图像处理领域、目标检测识别等等。卷积神经网络模型的组成部分主要有输入层、卷积层、池化层和全连接层。
图1.3卷积神经网络模型图
1.1.2LSTM神经网络
LSTM神经网络也称为长短记忆网络,是RNN网络的改进之后的网络模型,主要是来解决RNN出现的长距离依赖问题,通过设置一种cell记忆单元,在加上三个门的控制。
图1.4LSTM单元结构图
图1.5LSTM单元结构展开图
LSTM在对文本情感进行分类时,通常是将单个句子视为一个序列数据,句子中的词是序列中的节点,LSTM模型包括输入门、输出门和遗忘门,以此保证LSTM模型能够对长距离信息进行保存。
1.3BERT
Devlin等人的BERT使用Transformer中的编码器作为子结构,作为NLP任务的预训练模型,如SA、问题回答(QA)、文本摘要(TS)等。BERT对这些任务的执行分为两个阶段,即对语言理解的预训练和对特定任务的调优。BERT可以通过训练MLM和下一个句子预测(NSP)机制来理解语言。BERT假设用MLM盲法学习句子中的双向上下文。因此,它
您可能关注的文档
- 2026《数字流量仪表物联API函数库设计案例分析》7400字.docx
- 2026《数字流量仪表物联系统方案设计案例》10000字.docx
- 2026《数字普惠金融发展对ZJ省城乡居民收入差距的影响分析》12000字.doc
- 2026《双目成像理论概述》2000字.docx
- 2026《双重股权结构对公司绩效的影响研究—以京东集团为例》15000字.doc
- 2026《顺丰控股公司对环境承担社会责任的价值创造案例分析》17000字.docx
- 2026《绥化市的营商环境问题及优化策略》12000字.doc
- 2026《泰勒公式及其应用研究》6200字.docx
- 2026《滩羊肉冷藏期间IMP及其降解物含量的快速检测案例分析》5200字.doc
- 2026《碳点基复合材料的生物医学应用概述》3100字.docx
原创力文档

文档评论(0)