2025年自然语言处理工程师考试题库(附答案和详细解析)(1210).docxVIP

2025年自然语言处理工程师考试题库(附答案和详细解析)(1210).docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

自然语言处理工程师考试试卷

一、单项选择题(共10题,每题1分,共10分)

以下哪种模型是基于自回归(Autoregressive)方式生成文本的?

A.BERT

B.GPT

C.RoBERTa

D.XLNet

答案:B

解析:自回归模型通过前向(或后向)的上下文预测下一个词,GPT(GenerativePre-trainedTransformer)是典型的自回归模型,通过单向注意力机制逐词生成文本。BERT(双向编码器)、RoBERTa(BERT改进版)和XLNet(结合自回归与自编码)均不采用自回归生成方式,因此错误。

中文分词中“北大/西洋/公约/组织”的分词错误属于?

A.歧义切分错误

B.未登录词错误

C.冗余切分错误

D.漏切错误

答案:A

解析:“北大西洋公约组织”是一个完整的专有名词,正确分词应为“北大西洋/公约/组织”或“北大西洋公约组织”(视粒度而定)。原分词将“北大”与“西洋”分开,属于因词边界歧义导致的切分错误(如“北大”和“西洋”可单独成词,但组合时需整体处理)。未登录词错误指未收录的新词未被识别,冗余切分指多切分了不必要的词,漏切指遗漏了应切分的词,均不符合。

情感分析任务中,F1分数的计算基于?

A.准确率(Accuracy)和召回率(Recall)

B.精确率(Precision)和准确率(Accuracy)

C.精确率(Precision)和召回率(Recall)

D.真阳性率(TPR)和假阳性率(FPR)

答案:C

解析:F1分数是精确率(预测为正且实际为正的比例)和召回率(实际为正且被正确预测的比例)的调和平均,公式为(F1=2)。准确率是整体正确预测比例,真阳性率和假阳性率用于ROC曲线,均与F1无关。

以下哪项是Transformer模型中位置编码(PositionalEncoding)的主要作用?

A.增强词向量的语义表示

B.为模型提供词序信息

C.减少注意力计算量

D.防止过拟合

答案:B

解析:Transformer的自注意力机制本身不考虑词的位置信息,位置编码通过正弦/余弦函数或可学习参数为每个位置生成唯一向量,与词嵌入相加后,使模型能够感知词序。增强语义表示是词嵌入的作用,减少计算量是多头注意力的设计目标,防止过拟合通常通过dropout实现,因此错误。

机器翻译任务中,BLEU分数的计算不直接依赖以下哪项?

A.参考译文的n-gram匹配数

B.候选译文的n-gram总数

C.译文长度惩罚因子

D.词级别的语义相似度

答案:D

解析:BLEU(BilingualEvaluationUnderstudy)通过统计候选译文与参考译文的n-gram(1-4元组)重叠比例计算,同时引入长度惩罚(避免过短译文得分虚高)。它不涉及词级别的语义相似度(如同义词替换),因此D错误。

以下哪种技术属于无监督学习在NLP中的应用?

A.基于标注数据的情感分类

B.LDA主题模型

C.命名实体识别(NER)

D.序列到序列(Seq2Seq)模型训练

答案:B

解析:LDA(潜在狄利克雷分配)通过无标注文本学习主题分布,属于无监督学习。情感分类、NER和Seq2Seq通常需要标注数据(监督学习),因此错误。

以下哪项是子词分词(SubwordTokenization)的主要优势?

A.完全消除未登录词(OOV)问题

B.减少词表大小,保留词的内部结构

C.提高分词速度

D.增强词向量的上下文感知能力

答案:B

解析:子词分词(如WordPiece、BPE)将高频词作为整体,低频词拆分为子词(如“unhappiness”拆为“un”+“happiness”),既能减少词表大小(相比全词分词),又能通过子词组合表示未登录词(但无法完全消除OOV)。提高分词速度和增强上下文感知能力并非其主要优势,因此错误。

在文本分类任务中,使用预训练模型(如BERT)进行微调(Fine-tuning)时,通常冻结以下哪部分参数?

A.输入层的词嵌入

B.预训练的编码器(Encoder)

C.新增的分类器(Classifier)

D.所有参数均不冻结

答案:D

解析:微调时通常解冻预训练模型的全部参数(包括编码器和词嵌入),仅在数据量极小时可能冻结部分底层编码器以减少过拟合。因此D正确,其他选项不符合常规做法。

以下哪种任务属于序列标注(SequenceLabeling)?

A.文本摘要

B.问答系统(QA)

C.词性标注(POSTagging)

D.文本相似度计算

答案:C

解析:序列标注的输入是词序列,输出是每个词对应的标签序列(如词性、实体类型)。文本摘要和QA是生成或问答任务,文本相似度是匹配任务,均不属于

文档评论(0)

zhangbue + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档