2025年自然语言处理工程师考试题库（附答案和详细解析）（1210）.docxVIP

下载本文档

0
0
约9.17千字
约 12页
2025-12-14 发布于江苏
举报
版权申诉

2025年自然语言处理工程师考试题库（附答案和详细解析）（1210）.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

自然语言处理工程师考试试卷

一、单项选择题（共10题，每题1分，共10分）

以下哪种模型是基于自回归（Autoregressive）方式生成文本的？

A.BERT

B.GPT

C.RoBERTa

D.XLNet

答案：B

解析：自回归模型通过前向（或后向）的上下文预测下一个词，GPT（GenerativePre-trainedTransformer）是典型的自回归模型，通过单向注意力机制逐词生成文本。BERT（双向编码器）、RoBERTa（BERT改进版）和XLNet（结合自回归与自编码）均不采用自回归生成方式，因此错误。

中文分词中“北大/西洋/公约/组织”的分词错误属于？

A.歧义切分错误

B.未登录词错误

C.冗余切分错误

D.漏切错误

答案：A

解析：“北大西洋公约组织”是一个完整的专有名词，正确分词应为“北大西洋/公约/组织”或“北大西洋公约组织”（视粒度而定）。原分词将“北大”与“西洋”分开，属于因词边界歧义导致的切分错误（如“北大”和“西洋”可单独成词，但组合时需整体处理）。未登录词错误指未收录的新词未被识别，冗余切分指多切分了不必要的词，漏切指遗漏了应切分的词，均不符合。

情感分析任务中，F1分数的计算基于？

A.准确率（Accuracy）和召回率（Recall）

B.精确率（Precision）和准确率（Accuracy）

C.精确率（Precision）和召回率（Recall）

D.真阳性率（TPR）和假阳性率（FPR）

答案：C

解析：F1分数是精确率（预测为正且实际为正的比例）和召回率（实际为正且被正确预测的比例）的调和平均，公式为(F1=2)。准确率是整体正确预测比例，真阳性率和假阳性率用于ROC曲线，均与F1无关。

以下哪项是Transformer模型中位置编码（PositionalEncoding）的主要作用？

A.增强词向量的语义表示

B.为模型提供词序信息

C.减少注意力计算量

D.防止过拟合

答案：B

解析：Transformer的自注意力机制本身不考虑词的位置信息，位置编码通过正弦/余弦函数或可学习参数为每个位置生成唯一向量，与词嵌入相加后，使模型能够感知词序。增强语义表示是词嵌入的作用，减少计算量是多头注意力的设计目标，防止过拟合通常通过dropout实现，因此错误。

机器翻译任务中，BLEU分数的计算不直接依赖以下哪项？

A.参考译文的n-gram匹配数

B.候选译文的n-gram总数

C.译文长度惩罚因子

D.词级别的语义相似度

答案：D

解析：BLEU（BilingualEvaluationUnderstudy）通过统计候选译文与参考译文的n-gram（1-4元组）重叠比例计算，同时引入长度惩罚（避免过短译文得分虚高）。它不涉及词级别的语义相似度（如同义词替换），因此D错误。

以下哪种技术属于无监督学习在NLP中的应用？

A.基于标注数据的情感分类

B.LDA主题模型

C.命名实体识别（NER）

D.序列到序列（Seq2Seq）模型训练

答案：B

解析：LDA（潜在狄利克雷分配）通过无标注文本学习主题分布，属于无监督学习。情感分类、NER和Seq2Seq通常需要标注数据（监督学习），因此错误。

以下哪项是子词分词（SubwordTokenization）的主要优势？

A.完全消除未登录词（OOV）问题

B.减少词表大小，保留词的内部结构

C.提高分词速度

D.增强词向量的上下文感知能力

答案：B

解析：子词分词（如WordPiece、BPE）将高频词作为整体，低频词拆分为子词（如“unhappiness”拆为“un”+“happiness”），既能减少词表大小（相比全词分词），又能通过子词组合表示未登录词（但无法完全消除OOV）。提高分词速度和增强上下文感知能力并非其主要优势，因此错误。

在文本分类任务中，使用预训练模型（如BERT）进行微调（Fine-tuning）时，通常冻结以下哪部分参数？

A.输入层的词嵌入

B.预训练的编码器（Encoder）

C.新增的分类器（Classifier）

D.所有参数均不冻结

答案：D

解析：微调时通常解冻预训练模型的全部参数（包括编码器和词嵌入），仅在数据量极小时可能冻结部分底层编码器以减少过拟合。因此D正确，其他选项不符合常规做法。

以下哪种任务属于序列标注（SequenceLabeling）？

A.文本摘要

B.问答系统（QA）

C.词性标注（POSTagging）

D.文本相似度计算

答案：C

解析：序列标注的输入是词序列，输出是每个词对应的标签序列（如词性、实体类型）。文本摘要和QA是生成或问答任务，文本相似度是匹配任务，均不属于

您可能关注的文档

文档评论（0）

zhangbue + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

2025年自然语言处理工程师考试题库（附答案和详细解析）（1210）.docxVIP