基于BERT算法的电商评论情感分析研究.docxVIP

基于BERT算法的电商评论情感分析研究.docx

  1. 1、本文档共133页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

GUANGDONGUNIVERSITYOFTECHNOLOGY

硕士学位论文

(专业学位)

基于BERT算法的电商评论情感分析研究

作者姓名:

导师姓名:

学科(专业)或领域名称:

论文答辩年月:

陈鹏杰

谢胜利

控制工程

2022年5月

分类号:学校代码:11845

UDC:密级:学号:2111904285

广东工业大学硕士学位论文

(工程硕士)

基于BERT算法的电商评论情感分析研究

陈鹏杰

导师姓名(职称):谢胜利教授

谭华高级工程师

学科(专业)或领域名称:控制工程

学生所属学院:

自动化学院

答辩委员会主席:何昭水教授

论文答辩日期:2022年5月26日

ADissertationSubmittedtoGuangdongUniversityofTechnology

fortheDegreeofMaster

(MasterofEngineering)

ResearchonE-commerceCommentSentimentAnalysis

BasedonBERTAlgorithm

Candidate:ChenPengjie

Supervisor:Prof.XieShengli

May2022

SchoolofAutomation

GuangdongUniversityofTechnology

Guangzhou,Guangdong,P.R.China,510006

摘要

I

摘要

如今,电子商务与人们的日常生活密切相关。电子商务平台提供评论区供用户在线评论,评论数据会长期保存在电商平台上。这些评论对于消费者来说,直接影响到是否选择该商品;对于商家来说,可以了解用户对商品的评价,并及时改进不足。但各个电商平台上的评论区积累的评价内容十分庞大,直接阅读评论十分费力,难以获取有效的信息,不仅降低用户阅读评论的效率,也使得商家难以获取用户反馈的信息,增加改进商品的难度。因此如何在如此庞大的评论数据中高效获取消费者的情感信息,及时获取有价值的评论信息,对于提升用户体验和商家改进产品质量来说具有重要的

研究意义和商业价值。

本文基于BERT算法,通过对观点的实体和评价主体的识别,评价主体情感分析,来获取用户评论的评价主体和情感极性,实现细粒度的情感分析。主要任务和贡献包

括:

在词嵌入方式与训练数据的收集和处理中,通过分析使用传统的Word2Vec(WordToVector)词向量的不足,提出针对中文评论的字向量与词向量相结合的词嵌入方式。提出的词嵌入方式与单独使用字向量和词向量的词嵌入方式相比,分类准确率更高、语义信息保留更加完整、未登录词减少、词嵌入质量提高。通过分析普通数据集的不足,提出高质量标签数据集构建的意义。对比高质量标签数据集与普通数据集下的实

验结果,发现高质量标签数据集能提高模型训练的质量,提高预测准确率。

在观点的实体和评价主体识别中,为了解决传统Word2Vec模型只能够产生固定化语义的词向量的问题,提出基于改进BERT(BidirectionalEncoderRepresentationsfromTransformer)掩藏策略的BERT-BIGRU-CRF模型。该模型根据中文评论中字与字组成的词组联系较为紧密的特点,改进BERT算法的掩藏语言模型,并将其作为词嵌入层的语言模型。在该模型上训练得到的词向量能更好地挖掘词与词之间的语义信息,获得更加完整的语义信息。在特征抽取层中,采用BiGRU代替传统的BiLSTM,在提升训练速度的同时保证准确率。提出的模型与常用的命名实体识别模型LSTM-CRF相比,

在F?值、召回率和精确率上均有提升。

在评价主体情感分析中,针对传统的RCNN(RegionswithConvolutionalNeural

Networksfeatures)模型对于文本情感相关信息的特征提取不够充分,分类不准确的问

广东工业大学硕士专业学位论文

I

题,提出字词向量融合的M-BERT-ATT-ResGCNN模型。该模型首先使用预训练BERT语言模型代替Word2Vec语言模型,并针对电商评论数据进行改进,

文档评论(0)

151****2470 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档