- 1、本文档共69页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
摘要
基于深度学习的中文情感分析研究
中国互联网络信息中心2020年4月的报告中显示,我国上网的群众人数已
超过9亿,互联网络的普及率也达到了60%以上。这一数据一方面说明了人民生
活变得更加信息化,但另一方面也提醒我们的社会正在面临着一次前所未有的挑
战,如何处理好海量网络文本信息成为了一个迫切需要解决的问题。如何使用自
然语言处理技术(NaturalLanguageProcessing)分析海量的网络评论文本成
为了研究人员的研究热点。
随着硬件科技的迅速发展,深度神经网络技术,又称深度学习在近些年成为
了可能,并在自然语言处理领域取得骄人的成绩。国内外研究者也把这种技术应
用在了中文文本情感分析任务上面,但以往关于中文文本情感分类研究有以下几
点不足,第一,现有深度学习方法用于中文情感分析任务中大多缺少中文情感先
验知识。第二,以往的研究大多训练出的模型只能完成单一文本任务,它忽略了
自然语言任务都是有其关联性的,而任务之间的关联性信息是可以被利用的。第
三,以往基于文本多任务联合损失函数中各个任务的损失函数权重大多是静态
的,需要手工调参。
本文主要针对于以上几点深度学习运用于中文文本情感分析任务的不足,开
展了工作,主要研究和创新内容如下:
(1)本文提出一种新的文本特征表示方法B-ECM,它对两种特征向量进行了
拼接,一种是基于BERT预训练模型编码的语义特征向量,另一种是运用中文情
感词典和情感规则方法得到的文本情感特征向量。本文在三个标准中文数据集进
行了与基线方法BERT编码文本表示的对比实验,实验表明B-ECM在这三个中文
数据集对比基线模型提升了平均0.6%的精度。在此实验基础上本文进行了词向
量+ECM的基线方法对比实验,比只使用了词向量表示方法的情感分类模型精度
平均提高了0.68%。上述两部分实验结果表明了B-ECM表示方法与ECM模块单独
作用的有效性。
(2)本文采用多任务学习思想来解决中文情感分类任务,基于这一思想提
出了一种多任务模型MT-GSU,并通过在标准中文数据集上的实验,对比基线模
型提高了0.82%的精度。以上的实验结果表明了多任务思想解决中文情感分类任
务的可行性与MT-GSU多任务文本情感分类模型的有效性。本文在此基础上,提
出将在计算机视觉任务中已经取得较好效果的基于不确定性同方差损失函数结
合策略应用在多任务模型MT-GSU上,对比基线模型提升了1.21%的精度。
(3)本文通过消融实验验证了本文提出的三个主要创新点结合的有效性,得到
了以B-ECM作为特征表示方法,并以采用不确定性同方差损失函数结合策略的
MT-GSU作为分类器的情感分类模型,其对比基线模型精度提高了1.27%。本文也
在标准数据集上与近年来较为优秀的文本情感分类模型进行了对比实验,其结果
同样表明与这些模型相比均有不同程度的提升。
基于以往和本文的工作可以看出深度学习应用于中文文本情感分类是可行
有效的。训练一个更契合中文文本的预训练模型,探索各个自然语言处理任务之
间的相互促进关系与建立更加规范的中文语料库都是今后较为重要的研究方向。
关键词:
深度学习,自然语言处理,情感分析,多任务学习
Abstract
ResearchonChineseSentimentAnalysisBasedonDeepLearning
AccordingtothereportofChinaInternetNetworkInformationCenterinApril
2020,thenumberofpeopleonlineinmycountryhasexceeded900million,andthe
Internetpenetrationratehasreachedmorethan60%.Ontheonehand,itshowsthat
people’sliveshavebecomemoreinformatizedandintelligent,Butontheotherhand,it
alsoremindsthatoursocietyisfacinganunprec
文档评论(0)