2026年自然语言处理工程师考试题库（附答案和详细解析）（0125）.docxVIP

下载本文档

0
0
约8.15千字
约 11页
2026-03-10 发布于江苏
举报

2026年自然语言处理工程师考试题库（附答案和详细解析）（0125）.docx

自然语言处理工程师考试试卷

一、单项选择题（共10题，每题1分，共10分）

以下哪项是Word2Vec模型的核心训练目标？

A.预测文本情感倾向

B.根据中心词预测上下文词（或反之）

C.生成符合语法的完整句子

D.识别文本中的命名实体

答案：B

解析：Word2Vec的核心是通过滑动窗口构建词的上下文关系，训练目标是最大化中心词与上下文词的共现概率（CBOW模型预测上下文词，Skip-gram模型预测中心词）。A是情感分析任务，C是文本生成任务，D是命名实体识别任务，均与Word2Vec无关。

BERT模型在预训练阶段的主要任务不包括？

A.掩码语言模型（MLM）

B.下一句预测（NSP）

C.自回归语言模型（ARLM）

D.填充被掩码的token

答案：C

解析：BERT采用双向Transformer，预训练任务为MLM（随机掩码部分token并预测）和NSP（判断两句子是否连续）。自回归语言模型（如GPT）是单向的，仅基于前文预测下一词，因此C不是BERT的任务。

以下哪种技术常用于解决文本分类中的类别不平衡问题？

A.词袋模型（BoW）

B.过采样（Oversampling）

C.自注意力机制

D.位置编码

答案：B

解析：类别不平衡时，过采样（如SMOTE）通过复制少数类样本或生成新样本平衡数据分布。A是特征表示方法，C是Transformer核心组件，D用于处理序列位置信息，均不直接解决类别不平衡。

中文分词中“北京大学”被切分为“北京/大学”，这体现了分词的哪种歧义类型？

A.交集型歧义

B.组合型歧义

C.真歧义

D.无歧义

答案：B

解析：组合型歧义指同一字符串可切分为多个不同词语组合（如“北京大学”可切为“北京/大学”或“北/京大/学”），而交集型歧义指存在重叠的切分路径（如“研究生命”可切为“研究/生命”或“研究生/命”）。因此选B。

以下哪个指标最适合评估机器翻译任务的性能？

A.准确率（Accuracy）

B.F1值

C.BLEU分数

D.困惑度（Perplexity）

答案：C

解析：BLEU（双语评估替补）通过计算候选翻译与参考翻译的n-gram匹配度评估翻译质量，是机器翻译的标准指标。A/B用于分类任务，D用于语言模型评估（如生成文本的流畅度）。

以下哪项是循环神经网络（RNN）的主要缺陷？

A.无法处理变长序列

B.难以捕捉长距离依赖

C.参数量过大

D.不支持并行计算

答案：B

解析：RNN通过隐藏状态传递信息，但梯度消失/爆炸问题导致其难以捕捉长距离依赖（如相隔多个时间步的语义关联）。A错误（RNN可处理变长序列），C是Transformer的问题，D是RNN的特性（但非主要缺陷）。

情感分析任务的本质属于以下哪类NLP任务？

A.文本生成

B.序列标注

C.文本分类

D.问答系统

答案：C

解析：情感分析通过分析文本表达的观点，将其分类为积极/消极/中性等类别，本质是文本分类任务。A生成新文本，B为每个token打标签（如NER），D是问答交互。

以下哪种词嵌入模型支持动态词向量（即词向量随上下文变化）？

A.Word2Vec

B.GloVe

C.ELMo

D.FastText

答案：C

解析：ELMo（嵌入式语言模型）通过双向LSTM生成上下文相关的词向量，同一词在不同语境下向量不同。Word2Vec、GloVe、FastText均为静态词向量（固定上下文无关）。

在Transformer模型中，注意力分数（AttentionScore）的计算通常基于？

A.查询（Query）与键（Key）的点积

B.查询（Query）与值（Value）的点积

C.键（Key）与值（Value）的点积

D.位置编码与词向量的和

答案：A

解析：Transformer的自注意力机制中，注意力分数由Query与Key的点积计算（公式：((Q,K,V)=()V)），因此选A。

以下哪项不是预训练语言模型（如BERT）的典型应用场景？

A.文本摘要

B.知识图谱构建

C.问答系统

D.文本分类

答案：B

解析：预训练模型主要用于理解或生成文本（如分类、问答、摘要），知识图谱构建需结构化关系抽取和实体链接，通常需要额外的图谱技术（如三元组抽取），因此B不是典型场景。

二、多项选择题（共10题，每题2分，共20分）

以下属于Transformer模型核心组件的有？

A.多头注意力（Multi-HeadAttention）

B.循环层（RecurrentLayer）

C.位置编码（PositionalEncoding）

D.前馈神经网络（Feed-ForwardNetwork）

答案：ACD

解析：Transf

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

2026年自然语言处理工程师考试题库（附答案和详细解析）（0125）.docxVIP