2026年自然语言处理工程师考试题库(附答案和详细解析)(0110).docxVIP

  • 0
  • 0
  • 约9.27千字
  • 约 12页
  • 2026-02-01 发布于上海
  • 举报

2026年自然语言处理工程师考试题库(附答案和详细解析)(0110).docx

自然语言处理工程师考试试卷(总分100分)

一、单项选择题(共10题,每题1分,共10分)

Word2Vec模型的核心训练目标是以下哪一项?

A.预测当前词的类别标签

B.最大化上下文词与目标词的共现概率

C.生成符合语法的完整句子

D.计算两个句子的语义相似度

答案:B

解析:Word2Vec通过“上下文预测目标词”(CBOW)或“目标词预测上下文”(Skip-gram)的方式,本质是最大化上下文词与目标词的共现概率,从而学习词的分布式表示。选项A是分类任务目标,C是生成模型目标,D是句子嵌入任务目标,均不符合。

BERT预训练阶段的主要任务是?

A.单向语言模型(LM)

B.掩码语言模型(MLM)+下一句预测(NSP)

C.序列到序列(Seq2Seq)生成

D.情感极性分类

答案:B

解析:BERT的预训练任务包括两部分:通过随机掩码输入中的15%词并预测(MLM)学习双向语义;通过判断两句话是否连续(NSP)学习句子级关系。选项A是GPT的训练方式,C是机器翻译任务,D是下游微调任务,均错误。

循环神经网络(RNN)在处理长文本时的主要缺陷是?

A.参数数量过多导致过拟合

B.无法并行计算,训练效率低

C.梯度消失/爆炸导致长期依赖问题

D.无法处理变长序列

答案:C

解析:RNN通过链式结构传递信息,但反向传播时梯度会随时间步长指数级衰减(梯度消失)或增长(梯度爆炸),导致无法捕捉长距离依赖。选项B是RNN的特点但非主要缺陷;A和D可通过正则化和填充解决,并非核心问题。

以下哪项属于自然语言生成(NLG)任务?

A.文本分类

B.机器翻译

C.命名实体识别(NER)

D.关键词提取

答案:B

解析:NLG的目标是从结构化或非结构化输入生成自然语言文本,机器翻译是典型的输入(源语言句子)到输出(目标语言句子)的生成任务。其他选项均为理解任务(分类、标注、抽取)。

词袋模型(Bag-of-Words)的主要局限性是?

A.无法处理多语言文本

B.忽略词序和上下文信息

C.计算复杂度高

D.无法处理未登录词

答案:B

解析:词袋模型仅统计词频,不考虑词在句子中的顺序(如“猫追狗”和“狗追猫”会被视为相同),也不捕捉上下文语义。选项D是所有基于固定词表模型的共性问题,非词袋特有;A和C表述错误。

以下哪种模型属于生成式预训练模型?

A.BERT

B.GPT

C.RoBERTa

D.XLNet

答案:B

解析:GPT(GenerativePre-trainedTransformer)基于自回归(Autoregressive)模式,通过单向语言模型预训练,属于生成式模型;BERT、RoBERTa、XLNet均为判别式模型(通过MLM等任务学习表示)。

用于衡量机器翻译质量的常用指标是?

A.BLEU(双语评估替补分数)

B.F1分数

C.AUC-ROC

D.困惑度(Perplexity)

答案:A

解析:BLEU通过计算生成句子与参考句子的n-gram匹配率评估翻译质量,是机器翻译领域的标准指标。F1用于分类任务,AUC-ROC用于二分类,困惑度衡量语言模型的概率分布质量。

以下哪项是Transformer模型中位置编码(PositionalEncoding)的作用?

A.替代循环结构以捕捉序列顺序

B.增加模型的参数量

C.提升模型的并行计算能力

D.缓解过拟合问题

答案:A

解析:Transformer的自注意力机制本身不包含序列顺序信息,位置编码通过正弦/余弦函数或可学习参数为每个位置添加位置信息,从而替代RNN的顺序建模能力。选项C是多头注意力的作用,B和D与位置编码无关。

以下哪种方法可用于解决低资源语言的NLP任务?

A.增加训练数据的噪声

B.跨语言迁移学习(如利用高资源语言的预训练模型)

C.仅使用单字特征而非词特征

D.降低模型的层数

答案:B

解析:低资源语言缺乏足够标注数据时,跨语言迁移(如用英语预训练模型初始化,再用目标语言微调)是常用方法。选项A可能降低模型性能,C和D无明确依据。

情感分析任务的本质是?

A.文本生成

B.序列标注

C.文本分类(细粒度或粗粒度)

D.问答系统

答案:C

解析:情感分析通过分析文本的情感倾向(如积极/消极/中性),本质是将文本映射到预定义的情感类别中,属于文本分类任务。

二、多项选择题(共10题,每题2分,共20分)(每题至少2个正确选项)

以下属于Transformer模型核心组件的有?

A.循环单元(RNNCell)

B.多头注意力(Multi-HeadAttention)

C.前馈神经网络(Feed-ForwardNetwork)

D.位置编码(Positional

文档评论(0)

1亿VIP精品文档

相关文档