2026年自然语言处理工程师考试题库(附答案和详细解析)(0104).docxVIP

2026年自然语言处理工程师考试题库(附答案和详细解析)(0104).docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

自然语言处理工程师考试试卷(总分100分)

一、单项选择题(共10题,每题1分,共10分)

以下哪项属于自然语言处理中的“序列标注”任务?

A.文本分类

B.机器翻译

C.命名实体识别

D.问答系统

答案:C

解析:序列标注任务的核心是为文本中每个位置分配一个标签(如词性、实体类型),命名实体识别(NER)需要为每个词标注实体类别(如人名、地名),属于典型的序列标注任务。文本分类(A)是单句级别的类别预测,机器翻译(B)是序列到序列生成,问答系统(D)涉及多模块协作,均不属于序列标注。

以下哪种模型属于生成式模型?

A.条件随机场(CRF)

B.隐马尔可夫模型(HMM)

C.支持向量机(SVM)

D.逻辑回归(LR)

答案:B

解析:生成式模型通过联合概率P(X,Y)建模,HMM假设观测序列和隐状态序列的联合分布(P(观测|隐状态)×P(隐状态转移)),属于生成式模型。CRF(A)、SVM(C)、LR(D)均通过条件概率P(Y|X)建模,属于判别式模型。

Word2Vec的“Skip-gram”模型的输入和输出分别是?

A.中心词→上下文词

B.上下文词→中心词

C.前向词→后向词

D.整个句子→词向量

答案:A

解析:Skip-gram模型的目标是用中心词预测其上下文词(如输入“猫”,预测“可爱的”“坐在”等周围词),而CBOW模型是用上下文词预测中心词(B错误)。C、D均不符合Word2Vec的基本结构。

BERT模型的核心创新是?

A.单向Transformer编码器

B.双向Transformer编码器

C.自回归语言模型

D.循环神经网络(RNN)堆叠

答案:B

解析:BERT首次提出基于双向Transformer的预训练(通过掩码语言模型实现双向编码),突破了传统单向模型(如GPT)的局限性。A错误(BERT是双向),C是GPT的特点,D是早期模型(如LSTM)的结构。

以下哪项是机器翻译的常用评估指标?

A.BLEU

B.F1值

C.AUC-ROC

D.困惑度(Perplexity)

答案:A

解析:BLEU(双语评估替罪羊)通过计算候选翻译与参考翻译的n-gram重叠率评估翻译质量,是机器翻译的标准指标。F1(B)用于分类任务,AUC-ROC(C)用于二分类的区分能力评估,困惑度(D)用于语言模型的概率预测能力评估。

以下哪种技术不属于“子词分词”方法?

A.BPE(字节对编码)

B.WordPiece

C.最大匹配法

D.UnigramLanguageModel

答案:C

解析:最大匹配法是基于词典的中文分词方法(如正向/逆向最大匹配),属于传统分词技术。BPE(A)、WordPiece(B)、UnigramLM(D)均通过统计语料中的子词频率进行分词,是预训练模型(如BERT、GPT)常用的子词分词方法。

注意力机制(Attention)的核心作用是?

A.增加模型参数量

B.捕捉序列中长距离依赖关系

C.替代循环神经网络

D.降低计算复杂度

答案:B

解析:注意力机制通过计算序列中元素间的相关性权重,使模型能直接关注关键位置的信息,有效解决了RNN在长序列中“梯度消失”导致的长距离依赖问题。A(参数量增加是副作用)、C(注意力常与RNN结合)、D(自注意力计算复杂度为O(n2),高于RNN的O(n))均错误。

以下哪项属于“多模态自然语言处理”任务?

A.情感分析

B.图文生成(ImageCaptioning)

C.文本摘要

D.句法分析

答案:B

解析:多模态NLP涉及文本与其他模态(如图像、视频、语音)的交互,图文生成任务需要将图像信息转换为描述文本,属于典型的多模态任务。A、C、D均仅涉及文本单模态。

以下哪种模型是“自回归”预训练模型?

A.BERT

B.GPT

C.RoBERTa

D.XLNet

答案:B

解析:自回归模型(Autoregressive)通过前向/后向序列的条件概率建模(如P(x_t|x_1,…,x_{t-1})),GPT采用单向Transformer实现自回归语言模型。BERT(A)、RoBERTa(C)是基于掩码语言模型的自编码(Autoencoding)模型,XLNet(D)结合了自回归和自编码的优点。

以下哪项是“零样本学习(Zero-shotLearning)”在NLP中的典型应用?

A.用少量标注数据微调模型

B.直接让模型处理未训练过的任务

C.多任务联合训练

D.模型参数共享

答案:B

解析:零样本学习要求模型在未接触过目标任务标注数据的情况下完成任务(如用预训练模型直接生成从未训练过的问题答案)。A是少样本学习,C是多任务学习,D是参数共享技术。

二、多项选择题(共10题,

文档评论(0)

level来福儿 + 关注
实名认证
文档贡献者

二级计算机、经济专业技术资格证持证人

好好学习

领域认证该用户于2025年09月05日上传了二级计算机、经济专业技术资格证

1亿VIP精品文档

相关文档