- 1、本文档共34页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
天津师范大学硕士学位论文
摘要
互联网中,论坛贴子、观影评价、商品购买评价及回复、咨询、建议、即时
MSN/QQ/WeChat
聊天记录 ( )等内容通常是短文本。针对此类文本内容实现文
本自动分类具有广泛用途,如根据影评内容判断观众对电影喜爱是正向、负向还
是中立等。因此,基于自然语言处理技术的短文本分类问题成为研究热点。
文本分类方法主要分为两大类,分别是基于传统机器学习的方法和基于深度
学习的方法。在传统的机器学习方法中,文本分类精度的高低和文本特征提取的
好坏密切相关,且有时文本特征提取需人工参与处理,特征提取的质量不高,从
而导致文本分类的精度也差强人意;而基于深度学习的方法是通过诸如
CNN(ConvolutionalNeuralNetworks)等深度学习模型来对数据进行训练,无需人
工对数据进行特征提取,对文本分类精度影响更多的是数据集的大小以及训练的
迭代次数。
相比于长文本,短文本具有信息量较少、句式表达自由度较高等特点,给分
类带来诸多困难,如文本信息量小,重点不明显,导致文本特征难以提取,难以
分类等。为提高文本分类精度,需要充分挖掘文本上下文信息,从而提取其深层
语义特征,并使用深层语义特征优化短文本分类任务。针对以上的问题,本文针
对短文本分类问题,主要完成了以下工作:
(1)提出了基于上下文特征表达的短文本分类模型BBLNN(BERT-BiLSTM
-Neural-Network)。该模型首先利用BERT(Bidirectional Encoder Representations
from Transformers) 对于输入文本提取低层上下文特征;其次,为了进一步挖掘
低层特征上下文间关联,加强特征表达,提出利用BiLSTM(Bi-directionalLong
Short-Term Memory)对低层特征进行双向建模的思想;最终通过端到端的方式输
出文本类别。
(2)验证了BBLNN 模型在短文本分类任务上的性能。本文在公开的对话
数据集MRDA 上进行了实验。实验结果表明,BBLNN 模型分类精度能够达
到 89.92%,优于现在一些先进的短文本分类方法,同时证明了通过对短文本进行
双层上下文特征提取能够提高其特征判别性。
I
天津师范大学硕士学位论文
目录
第一章 绪论1
1.1研究背景及意义1
1.2 国内外研究现状2
1.2.1文本表示研究现状2
1.2.2 文本分类研究现状4
1.3本文研究工作7
1.4 论文结构8
第二章 相关理论和技术9
2.1文本分类概述9
2.2 文本预处理9
2.3文本表示方法10
2.3.1词袋模型10
2.3.2Word2vec 模型11
2.4 相关深度学习算法概述12
2.4.1循环神经网络12
2.4.2 长短时记忆神经网络14
2.4.3BERT预训练模型相关算法15
2.4.4 基于BERT模型的词嵌入17
2.5本章小结18
第三章 基于上下文特征表达的短文本分类方法19
3.1短文本分类问题描述19
3.2 系统概述19
3.3模型构建20
3.3.1低层特征提取模块20
3.3.2 高层特征提取模块23
3.3.3文本分类模块24
3.3.4 训练模型25
第四章 实验的性能分析26
4.1实验数据集26
4.2 参数设置26
4.3 实验对比与分析26
您可能关注的文档
- 基于GAN的红外与可见光图像融合算法研究.pdf
- 基于HPS落实科学本质观的高中化学教学现状及实践研究.pdf
- 基于PBL的初中数学“综合与实践”的教学研究.pdf
- 基于SOLO分类理论的高中地理“专题复习”实践研究.pdf
- 基于STEAM教育的《石油化工》校本课程资源开发研究.pdf
- 基于“认识思路”的高中化学单元教学研究——以“物质的量”为例.pdf
- 基于TOPSIS-RSR法对32届东京奥运会中国女篮与对手前锋攻防能力对比分析.pdf
- 基于U-Net网络的单细胞RNA测序数据插补算法研究.pdf
- 基于二值神经网络的轻量化文字识别方法研究.pdf
- 基于修正KMV模型的企业信用违约风险研究——以蛋壳公寓为例.pdf
文档评论(0)