- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
··22年6月
辰沙理工大学
CHANGSHAUNIVERSITYOFSCIENCETECHNOLOGY
毕业设计(论文)
题目:基于BERT和WMD的短文本相似度计算
系统设计与实现
学生姓名:
学号:
班级:
专业:计算机科学与技术
指导教师:
基于BERT和WMD的短文本相似度计算系统设计与实现
学生姓名:
学号:
班级:
所在学院:计算机与通信工程
指导教师:
··日期:2022年6月
基于BERT和WMD的短文本相似度计算系统设计与实现
诚信声明
本人声明:
1、本人所呈交的毕业设计(论文)是在老师指导下进行的研究(设计)工作及取得的研究(设计)成果;
2、据查证,除了文中特别加以标注和致谢的地方外,毕业设计(论文)中不包含其他人已经公开发表过的研究成果,也不包含为获得其他教育机构的学位而使用过材料;
3、我承诺,本人提交的毕业设计(论文)中的所有内容均真实、可信。
作者签名:日期:2022年6月10日
基于BERT和WMD的短文本相似度计算系统设计与实现
基于BERT和WMD的短文本相似度计算系统设计与实现
摘要
自然语言处理任务如信息检索、机器翻译、问答系统等,常会包含两个短文本之间相似性的计算。在计算机看来,文本是存在一种丰富的、多维的语义空间中的特殊向量,再者如何采用合适且有效的算法及模型去度量两者间的相似性是一个非常重要的问题。理论界中,度量文本相似性的方法有直接利用hashcode、主题模型等基于统计的传统文本匹配计数,或者将文本投射进特定的向量空间,将其表示为词向量,再通过计算欧氏距离、曼哈顿距离或余弦夹角进行度量。但这些方法训练出的文本向量难以涵盖不同上下文时语义上的信息。因此本文旨在利用预先预训练的模型BERT,将其在中文的语义匹配数据集LCQMC上进行微调,使得每个位置上输出的词向量捕获文本字词上及语义上的信息,提升文本匹配的精确性,再将其通过WordMoversDistances(WMD)距离计算作为文本之间的相似度度量。最后设计基于Web的交互前端,通过Flask开发框架进行前后端的交互,实现一个基于BERT和WMD的短文本相似度计算系统。
关键词:自然语言处理;文本相似度计算;BERT;WMD;文本表征
基于BERT和WMD的短文本相似度计算系统设计与实现
ASHORTTEXTSIMILARITY
MEASUREMENTSYSTEMBASEDONBERTANDWMD
ABSTRACT
Innaturallanguageprocessing,thesimilaritymeasurementbetweentwoshorttextsisofteninvolvedintaskssuchasinformationretrieval,machinetranslation,questionansweringsystems,etc.Textisahigh-dimensionalsemanticspace,andhowtoabstractlydecomposeitsothatitcanbequantifiedfromamathematicalpointofviewisancrucialconstituent.Previousmethodsofmeasuringtextsimilarityhavebeentodirectlyusehashcode,thesubjectmodel,orprojecttextsintoaspecificvecto
文档评论(0)