2026年自然语言处理工程师考试题库(附答案和详细解析)(0121).docxVIP

  • 0
  • 0
  • 约8.32千字
  • 约 11页
  • 2026-02-13 发布于上海
  • 举报

2026年自然语言处理工程师考试题库(附答案和详细解析)(0121).docx

自然语言处理工程师考试试卷

一、单项选择题(共10题,每题1分,共10分)

以下哪项是Word2Vec模型的核心训练目标?

A.生成符合语法的句子

B.预测上下文词或中心词

C.进行情感极性分类

D.提取文本中的关键实体

答案:B

解析:Word2Vec的核心是通过“上下文-中心词”或“中心词-上下文”的预测任务学习词向量(CBOW和Skip-gram模型)。A是语言模型目标,C是分类任务目标,D是命名实体识别任务目标,均错误。

BERT模型在预训练阶段不包含以下哪项任务?

A.掩码语言模型(MLM)

B.下一句预测(NSP)

C.序列到序列生成

D.词元级别的双向表征学习

答案:C

解析:BERT预训练任务是MLM(随机掩码部分词并预测)和NSP(判断两句子是否连续)。序列到序列生成是GPT等模型的训练目标,BERT本身是双向编码器,不直接生成序列,故C错误。

以下哪种模型属于生成式预训练模型?

A.BERT

B.GPT

C.RoBERTa

D.ALBERT

答案:B

解析:GPT(GenerativePre-trainedTransformer)是生成式模型,通过自回归方式训练(预测下一个词);BERT、RoBERTa、ALBERT均为双向编码器,属于判别式预训练模型,故B正确。

在情感分析任务中,F1分数主要衡量模型的:

A.预测速度

B.精确率和召回率的调和平均

C.对长文本的处理能力

D.不同类别间的区分度

答案:B

解析:F1分数计算公式为2(精确率召回率)/(精确率+召回率),是精确率和召回率的调和平均,用于综合评估分类模型的性能。A是效率指标,C是模型架构能力,D是混淆矩阵的整体表现,均错误。

以下哪项不是循环神经网络(RNN)的主要缺陷?

A.梯度消失/爆炸问题

B.难以并行化计算

C.无法捕捉长距离依赖

D.对词序不敏感

答案:D

解析:RNN通过隐状态传递捕捉序列顺序,对词序敏感(如“狗追猫”和“猫追狗”会被区分)。其缺陷包括梯度问题(A)、串行计算(B)、长距离依赖捕捉能力弱(C),故D错误。

中文分词中的“隐马尔可夫模型(HMM)”主要通过以下哪类概率进行解码?

A.发射概率和转移概率

B.词频统计概率

C.上下文语义概率

D.注意力权重概率

答案:A

解析:HMM将分词视为状态转移问题(状态为B/M/E/S),通过发射概率(字属于某状态的概率)和转移概率(状态间转移的概率)计算最优路径。B是基于统计的规则方法,C是深度学习模型特点,D是Transformer特性,故A正确。

机器翻译任务中,BLEU评估指标的核心是:

A.预测句与参考句的词序完全一致

B.不同长度n-gram的匹配度

C.句子的语法正确性

D.语义表示的向量相似度

答案:B

解析:BLEU通过计算预测句与参考句的n-gram(1-4元组)重叠率,并加权平均,最终考虑brevitypenalty(长度惩罚)。A要求过严,C是语法检查任务,D是余弦相似度指标,故B正确。

以下哪项属于非自回归生成模型?

A.Transformer解码器(自回归)

B.并行Transformer(Non-autoregressiveTransformer)

C.LSTM语言模型

D.GPT-3

答案:B

解析:非自回归模型可并行生成所有位置的词(如通过掩码预测),而自回归模型需按顺序生成(如A、C、D)。故B正确。

命名实体识别(NER)的常见标签体系不包括:

A.BIO

B.BILOU

C.IOBES

D.TF-IDF

答案:D

解析:TF-IDF是词重要性统计指标,非NER标签体系。BIO(Begin/Inside/Outside)、BILOU(Begin/Inside/Last/Outside/Unit)、IOBES(与BILOU类似)均为NER常用标签,故D错误。

以下哪种技术用于解决多模态NLP任务?

A.词嵌入(WordEmbedding)

B.视觉-语言对齐(Vision-LanguageAlignment)

C.注意力机制(Attention)

D.循环神经网络(RNN)

答案:B

解析:多模态任务需融合文本与其他模态(如图像),视觉-语言对齐技术(如CLIP模型)通过对齐图像和文本的表征实现。A是单模态文本处理,C、D是通用序列模型技术,故B正确。

二、多项选择题(共10题,每题2分,共20分)(每题至少2个正确选项)

以下属于预训练语言模型的有:

A.GloVe

B.BERT

C.ELMo

D.Word2Vec

答案:BC

解析:预训练语言模型(PLM)指通过大规模语料预训练、可迁移至下游任务的模型,BERT(双向)和ELMo(深度上下

文档评论(0)

1亿VIP精品文档

相关文档