2026年自然语言处理工程师考试题库(附答案和详细解析)(0116).docxVIP

  • 1
  • 0
  • 约7.8千字
  • 约 10页
  • 2026-03-08 发布于江苏
  • 举报

2026年自然语言处理工程师考试题库(附答案和详细解析)(0116).docx

自然语言处理工程师考试试卷

一、单项选择题(共10题,每题1分,共10分)

以下哪项是Word2Vec模型的核心训练目标?

A.预测文本情感倾向

B.生成符合语法的句子

C.学习词的分布式向量表示

D.识别文本中的命名实体

答案:C

解析:Word2Vec的核心是通过滑动窗口的上下文预测任务(CBOW或Skip-gram),学习词的低维连续向量表示(分布式表示),因此选C。A是情感分析任务,B是语言生成任务,D是命名实体识别任务,均非Word2Vec目标。

BERT模型的预训练任务不包括以下哪项?

A.掩码语言模型(MLM)

B.下一句预测(NSP)

C.序列到序列生成

D.上下文词向量学习

答案:C

解析:BERT的预训练任务是MLM(随机掩码部分输入词并预测)和NSP(判断两句子是否连续),因此C错误。D是MLM任务的间接目标,属于BERT的能力。

循环神经网络(RNN)的主要缺陷是?

A.参数数量过多

B.无法处理变长序列

C.长距离依赖问题

D.难以并行计算

答案:C

解析:RNN通过时间步传递隐藏状态,但梯度消失/爆炸问题导致其难以捕捉长距离依赖关系(如“我有一只猫,它的____很软”中“猫”和“毛”的关联),因此选C。D是RNN的特点但非主要缺陷,A、B表述错误。

命名实体识别(NER)属于以下哪类任务?

A.文本分类

B.序列标注

C.文本生成

D.机器翻译

答案:B

解析:NER需要为文本中每个token分配实体标签(如“北京”→LOC),本质是序列标注任务(每个位置有独立标签),因此选B。A是为整段文本打单标签,C、D是生成新文本。

词袋模型(Bag-of-Words)的主要缺点是?

A.无法表示词序信息

B.维度过低

C.计算复杂度高

D.无法处理生僻词

答案:A

解析:词袋模型仅统计词频,忽略词的顺序(如“猫追狗”和“狗追猫”会被视为相同),因此选A。B错误(词袋维度等于词汇表大小,通常很高),C、D非主要缺点。

ELMo(EmbeddingsfromLanguageModels)的核心特点是?

A.静态词向量(上下文无关)

B.动态词向量(上下文相关)

C.仅利用单向语言模型

D.完全基于注意力机制

答案:B

解析:ELMo通过双向LSTM生成每个词的上下文相关向量(同一词在不同语境下向量不同),因此选B。A是Word2Vec的特点,C错误(ELMo用双向模型),D错误(ELMo基于LSTM)。

文本分类任务中,最常用的综合评价指标是?

A.BLEU分数

B.Perplexity(困惑度)

C.F1-score

D.余弦相似度

答案:C

解析:文本分类需平衡精确率(Precision)和召回率(Recall),F1-score是二者的调和平均,因此选C。A用于机器翻译,B用于语言模型,D用于语义相似度。

Transformer模型中,位置编码(PositionalEncoding)的作用是?

A.替代循环神经网络

B.提供词的顺序信息

C.降低模型参数量

D.增强注意力的全局相关性

答案:B

解析:Transformer的自注意力机制本身不感知词序,位置编码通过正弦/余弦函数或可学习参数为每个位置添加顺序信息,因此选B。A是Transformer的整体目标,C、D非位置编码的核心作用。

当前主流的神经机器翻译(NMT)模型基于以下哪种架构?

A.循环神经网络(RNN)

B.卷积神经网络(CNN)

C.Transformer

D.深度信念网络(DBN)

答案:C

解析:自2017年《AttentionIsAllYouNeed》提出后,Transformer因其并行计算和长距离依赖捕捉能力,成为机器翻译的主流架构,因此选C。A、B已被Transformer超越,D不用于NLP。

情感分析(SentimentAnalysis)本质上属于以下哪类任务?

A.序列标注

B.文本生成

C.文本分类

D.问答系统

答案:C

解析:情感分析需将文本划分为积极/消极/中性等类别,属于单标签或多标签文本分类任务,因此选C。A是序列级标签,B、D是生成或问答任务。

二、多项选择题(共10题,每题2分,共20分)

以下属于预训练语言模型的有?(至少2个正确选项)

A.Word2Vec

B.BERT

C.GPT

D.RoBERTa

答案:BCD

解析:预训练语言模型(PLM)是在大规模语料上预训练后微调的模型,BERT、GPT、RoBERTa均属此类。Word2Vec是词向量模型(非完整语言模型),因此A错误。

文本分类任务中,常用的特征表示方法包括?

A.TF-IDF

B.词袋模型(BoW)

C.预训练词向量(如

文档评论(0)

1亿VIP精品文档

相关文档