2026年自然语言处理工程师考试题库(附答案和详细解析)(0125).docxVIP

  • 0
  • 0
  • 约8.15千字
  • 约 11页
  • 2026-03-10 发布于江苏
  • 举报

2026年自然语言处理工程师考试题库(附答案和详细解析)(0125).docx

自然语言处理工程师考试试卷

一、单项选择题(共10题,每题1分,共10分)

以下哪项是Word2Vec模型的核心训练目标?

A.预测文本情感倾向

B.根据中心词预测上下文词(或反之)

C.生成符合语法的完整句子

D.识别文本中的命名实体

答案:B

解析:Word2Vec的核心是通过滑动窗口构建词的上下文关系,训练目标是最大化中心词与上下文词的共现概率(CBOW模型预测上下文词,Skip-gram模型预测中心词)。A是情感分析任务,C是文本生成任务,D是命名实体识别任务,均与Word2Vec无关。

BERT模型在预训练阶段的主要任务不包括?

A.掩码语言模型(MLM)

B.下一句预测(NSP)

C.自回归语言模型(ARLM)

D.填充被掩码的token

答案:C

解析:BERT采用双向Transformer,预训练任务为MLM(随机掩码部分token并预测)和NSP(判断两句子是否连续)。自回归语言模型(如GPT)是单向的,仅基于前文预测下一词,因此C不是BERT的任务。

以下哪种技术常用于解决文本分类中的类别不平衡问题?

A.词袋模型(BoW)

B.过采样(Oversampling)

C.自注意力机制

D.位置编码

答案:B

解析:类别不平衡时,过采样(如SMOTE)通过复制少数类样本或生成新样本平衡数据分布。A是特征表示方法,C是Transformer核心组件,D用于处理序列位置信息,均不直接解决类别不平衡。

中文分词中“北京大学”被切分为“北京/大学”,这体现了分词的哪种歧义类型?

A.交集型歧义

B.组合型歧义

C.真歧义

D.无歧义

答案:B

解析:组合型歧义指同一字符串可切分为多个不同词语组合(如“北京大学”可切为“北京/大学”或“北/京大/学”),而交集型歧义指存在重叠的切分路径(如“研究生命”可切为“研究/生命”或“研究生/命”)。因此选B。

以下哪个指标最适合评估机器翻译任务的性能?

A.准确率(Accuracy)

B.F1值

C.BLEU分数

D.困惑度(Perplexity)

答案:C

解析:BLEU(双语评估替补)通过计算候选翻译与参考翻译的n-gram匹配度评估翻译质量,是机器翻译的标准指标。A/B用于分类任务,D用于语言模型评估(如生成文本的流畅度)。

以下哪项是循环神经网络(RNN)的主要缺陷?

A.无法处理变长序列

B.难以捕捉长距离依赖

C.参数量过大

D.不支持并行计算

答案:B

解析:RNN通过隐藏状态传递信息,但梯度消失/爆炸问题导致其难以捕捉长距离依赖(如相隔多个时间步的语义关联)。A错误(RNN可处理变长序列),C是Transformer的问题,D是RNN的特性(但非主要缺陷)。

情感分析任务的本质属于以下哪类NLP任务?

A.文本生成

B.序列标注

C.文本分类

D.问答系统

答案:C

解析:情感分析通过分析文本表达的观点,将其分类为积极/消极/中性等类别,本质是文本分类任务。A生成新文本,B为每个token打标签(如NER),D是问答交互。

以下哪种词嵌入模型支持动态词向量(即词向量随上下文变化)?

A.Word2Vec

B.GloVe

C.ELMo

D.FastText

答案:C

解析:ELMo(嵌入式语言模型)通过双向LSTM生成上下文相关的词向量,同一词在不同语境下向量不同。Word2Vec、GloVe、FastText均为静态词向量(固定上下文无关)。

在Transformer模型中,注意力分数(AttentionScore)的计算通常基于?

A.查询(Query)与键(Key)的点积

B.查询(Query)与值(Value)的点积

C.键(Key)与值(Value)的点积

D.位置编码与词向量的和

答案:A

解析:Transformer的自注意力机制中,注意力分数由Query与Key的点积计算(公式:((Q,K,V)=()V)),因此选A。

以下哪项不是预训练语言模型(如BERT)的典型应用场景?

A.文本摘要

B.知识图谱构建

C.问答系统

D.文本分类

答案:B

解析:预训练模型主要用于理解或生成文本(如分类、问答、摘要),知识图谱构建需结构化关系抽取和实体链接,通常需要额外的图谱技术(如三元组抽取),因此B不是典型场景。

二、多项选择题(共10题,每题2分,共20分)

以下属于Transformer模型核心组件的有?

A.多头注意力(Multi-HeadAttention)

B.循环层(RecurrentLayer)

C.位置编码(PositionalEncoding)

D.前馈神经网络(Feed-ForwardNetwork)

答案:ACD

解析:Transf

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档