计算机类本科毕业论文-基于BERT和WMD的短文本相似度计算.docx

下载文档

0
0
约3.92万字
约 55页
2024-05-11 发布于湖南
举报
版权申诉
保障服务

计算机类本科毕业论文-基于BERT和WMD的短文本相似度计算.docx

1、本文档共55页，其中可免费阅读17页，需付费248金币后方可阅读剩余内容。
2、本文档内容版权归属内容提供方，所产生的收益全部归内容提供方所有。如果您对本文有版权争议，可选择认领，认领后既往收益都归您。
3、本文档由用户上传，本站不保证质量和数量令人满意，可能有诸多瑕疵，付费之前，请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形，可联系本站下载客服投诉处理。
4、文档侵权举报电话：400-050-0827(电话支持时间：9:00-18:30)。

标题：基于BERT和WMD的短文本相似度计算系统设计与实现概述：本项目旨在利用预先训练的Bert模型，在中文的语义匹配数据集LCQMC上进行微调，使得每个位置上输出的词向量捕获文本字词上及语义上的信息，提升文本匹配的精确性，并通过WordMoversDistances（WMD）距离计算作为文本之间的相似度度量。关键词：自然语言处理；文本相似度计算；BERT；WMD；文本表征综述：本项目的目标是利用Bert模型，在已有的大规模数据集中，通过调整其参数使其能够更好地处理中文语义，从

基于BERT和WMD的短文本相似度计算系统设计与实现

摘要

自然语言处理任务如信息检索、机器翻译、问答系统等，常会包含两个短文本之间相似性的计算。在计算机看来，文本是存在一种丰富的、多维的语义空间中的特殊向量，再者如何采用合适且有效的算法及模型去度量两者间的相似性是一个非常重要的问题。理论界中，度量文本相似性的方法有直接利用hashcode、主题模型等基于统计的传统文本匹配计数，或者将文本投射进特定的向量空间，将其表示为词向量，再通过计算欧氏距离、曼哈顿距离或余弦夹角进行度量。但这些方法训练出的文本向量难以涵盖不同上下文时语义上的信息。因此本文旨在利用预先预训练的模型BERT，将其在中文的语