2025年NLP文本相似度模型优化实操真题及答案.docxVIP

  • 0
  • 0
  • 约4.75千字
  • 约 7页
  • 2026-03-25 发布于北京
  • 举报

2025年NLP文本相似度模型优化实操真题及答案.docx

2025年NLP文本相似度模型优化实操真题及答案

考试时间:______分钟总分:______分姓名:______

选择题(每题4分,共20分)

1.以下哪种模型最不适合短文本(如微博评论)相似度计算?

A.BERT-base

B.SimCSE(无监督)

C.Sentence-BERT

D.Word2Vec+余弦相似度

2.计算文本相似度时,若数据集中存在大量“噪声样本”(如标签错误的句子对),以下哪种优化策略效果最差?

A.增加对比学习中的温度参数,降低噪声样本的权重

B.使用CleanCL(数据清洗算法)过滤噪声样本

C.直接扩大模型容量(如换BERT-large)

D.引入样本权重,对高置信度样本赋予更高损失

3.评估相似度模型时,“准确率(Accuracy)”不适合作为主要指标的场景是?

A.二分类任务(相似/不相似,类别均衡)

B.多标签分类任务(一个句子对可属于多个相似度等级)

C.跨语言相似度计算(如中文-英文句子对)

D.检索任务(Top-K准确率)

4.以下关于“对比学习在文本相似度中的应用”的说法,错误的是?

A.SimCSE通过“正样本为自身,负样本为批次内其他样本”构建对比对

B.蒸馏式对比学习(如DistillSimCSE)可提升小模型性能

C.对比学习仅适用于无监督场景,无法结合监督信号

D.温

文档评论(0)

1亿VIP精品文档

相关文档