2026年自然语言处理工程师考试题库(附答案和详细解析)(0124).docxVIP

  • 1
  • 0
  • 约8.06千字
  • 约 11页
  • 2026-02-12 发布于上海
  • 举报

2026年自然语言处理工程师考试题库(附答案和详细解析)(0124).docx

自然语言处理工程师考试试卷

一、单项选择题(共10题,每题1分,共10分)

以下哪项是Word2Vec模型的核心训练目标?

A.预测词的情感倾向

B.最大化上下文与中心词的共现概率

C.生成符合语法的句子

D.分类词的语法类别

答案:B

解析:Word2Vec的核心是通过滑动窗口构建词的上下文共现关系,训练目标是最大化中心词与上下文词的共现概率(Skip-gram模型)或上下文词与中心词的共现概率(CBOW模型)。A是情感分析任务,C是语言模型目标,D是词性标注任务,均不符合。

BERT模型在预训练阶段的主要任务不包括?

A.掩码语言模型(MLM)

B.下一句预测(NSP)

C.序列到序列生成

D.词向量初始化

答案:C

解析:BERT预训练任务为MLM(随机掩码部分输入词并预测)和NSP(判断两句子是否连续)。C是GPT等生成模型的任务,D是预训练的间接效果而非主要任务。

循环神经网络(RNN)的主要缺陷是?

A.无法处理变长序列

B.难以捕捉长距离依赖

C.参数量过大

D.不支持并行计算

答案:B

解析:RNN因梯度消失/爆炸问题,难以学习长距离依赖关系(如相隔多个时间步的词关联)。A错误(RNN可处理变长序列),C是Transformer的问题,D是RNN与Transformer的区别但非主要缺陷。

命名实体识别(NER)属于以下哪类任务?

A.序列标注

B.文本分类

C.机器翻译

D.问答系统

答案:A

解析:NER需为每个词标注实体类别(如人名、地名),属于序列标注任务。B是整体分类,C是序列转换,D是问答对生成。

以下哪种技术常用于解决OOV(未登录词)问题?

A.词袋模型(Bag-of-Words)

B.子词嵌入(SubwordEmbedding)

C.最大池化(MaxPooling)

D.注意力机制(Attention)

答案:B

解析:子词嵌入(如BPE、WordPiece)通过将词分解为子词单元(如”unhappiness”→“un”+“happiness”),覆盖未登录词。A忽略词序且无法处理OOV,C是特征提取方法,D用于捕捉依赖关系。

评估机器翻译质量的常用指标是?

A.F1值

B.BLEU分数

C.AUC-ROC

D.困惑度(Perplexity)

答案:B

解析:BLEU(双语评估替补)通过计算候选翻译与参考翻译的n-gram匹配度评估翻译质量。A用于分类任务,C用于二分类模型评估,D用于语言模型复杂度评估。

以下哪种模型属于生成式预训练模型?

A.BERT

B.GPT

C.ELMo

D.RoBERTa

答案:B

解析:GPT(生成式预训练Transformer)基于自回归(Autoregressive)模式,通过前向词预测后续词,属于生成模型。其他选项(BERT、ELMo、RoBERTa)均为判别式预训练模型。

处理中文分词时,“北京大学”应被正确切分为?

A.北/京/大/学

B.北京/大学

C.北/京大学

D.北京大学

答案:B

解析:中文分词需符合语义单元,“北京”是地名,“大学”是机构类型,因此正确切分为“北京/大学”。A过细切分,C和D不符合语义边界。

情感分析的本质是?

A.文本生成

B.序列标注

C.文本分类

D.句法分析

答案:C

解析:情感分析需将文本分类为积极、消极或中性等类别,属于文本分类任务。A是生成新文本,B是序列标注,D是分析句子结构。

以下哪项不是Transformer模型的组成部分?

A.多头注意力层(Multi-HeadAttention)

B.位置编码(PositionalEncoding)

C.循环单元(RecurrentUnit)

D.前馈神经网络(Feed-ForwardNetwork)

答案:C

解析:Transformer完全基于自注意力机制,无循环单元。A、B、D均为其核心组件。

二、多项选择题(共10题,每题2分,共20分)

以下属于预训练语言模型的有?

A.GPT-3

B.BERT

C.Word2Vec

D.LSTM

答案:AB

解析:预训练语言模型通过大规模无监督数据训练通用语言表示(如GPT-3的自回归、BERT的自编码)。C是词嵌入模型(非完整语言模型),D是网络结构(非预训练模型)。

文本分类的常用评价指标包括?

A.准确率(Accuracy)

B.F1值

C.BLEU分数

D.AUC-ROC(多分类场景)

答案:ABD

解析:文本分类评估需关注分类正确性(准确率)、查准查全平衡(F1)、模型区分能力(AUC-ROC)。C是机器翻译指标。

以下哪些方法可用于解决长文本处理问题?

A.截断文本(Truncation)

B.滑动窗口

文档评论(0)

1亿VIP精品文档

相关文档