2026年自然语言处理工程师考试题库（附答案和详细解析）（0124）.docxVIP

下载本文档

1
0
约8.06千字
约 11页
2026-02-12 发布于上海
举报

2026年自然语言处理工程师考试题库（附答案和详细解析）（0124）.docx

自然语言处理工程师考试试卷

一、单项选择题（共10题，每题1分，共10分）

以下哪项是Word2Vec模型的核心训练目标？

A.预测词的情感倾向

B.最大化上下文与中心词的共现概率

C.生成符合语法的句子

D.分类词的语法类别

答案：B

解析：Word2Vec的核心是通过滑动窗口构建词的上下文共现关系，训练目标是最大化中心词与上下文词的共现概率（Skip-gram模型）或上下文词与中心词的共现概率（CBOW模型）。A是情感分析任务，C是语言模型目标，D是词性标注任务，均不符合。

BERT模型在预训练阶段的主要任务不包括？

A.掩码语言模型（MLM）

B.下一句预测（NSP）

C.序列到序列生成

D.词向量初始化

答案：C

解析：BERT预训练任务为MLM（随机掩码部分输入词并预测）和NSP（判断两句子是否连续）。C是GPT等生成模型的任务，D是预训练的间接效果而非主要任务。

循环神经网络（RNN）的主要缺陷是？

A.无法处理变长序列

B.难以捕捉长距离依赖

C.参数量过大

D.不支持并行计算

答案：B

解析：RNN因梯度消失/爆炸问题，难以学习长距离依赖关系（如相隔多个时间步的词关联）。A错误（RNN可处理变长序列），C是Transformer的问题，D是RNN与Transformer的区别但非主要缺陷。

命名实体识别（NER）属于以下哪类任务？

A.序列标注

B.文本分类

C.机器翻译

D.问答系统

答案：A

解析：NER需为每个词标注实体类别（如人名、地名），属于序列标注任务。B是整体分类，C是序列转换，D是问答对生成。

以下哪种技术常用于解决OOV（未登录词）问题？

A.词袋模型（Bag-of-Words）

B.子词嵌入（SubwordEmbedding）

C.最大池化（MaxPooling）

D.注意力机制（Attention）

答案：B

解析：子词嵌入（如BPE、WordPiece）通过将词分解为子词单元（如”unhappiness”→“un”+“happiness”），覆盖未登录词。A忽略词序且无法处理OOV，C是特征提取方法，D用于捕捉依赖关系。

评估机器翻译质量的常用指标是？

A.F1值

B.BLEU分数

C.AUC-ROC

D.困惑度（Perplexity）

答案：B

解析：BLEU（双语评估替补）通过计算候选翻译与参考翻译的n-gram匹配度评估翻译质量。A用于分类任务，C用于二分类模型评估，D用于语言模型复杂度评估。

以下哪种模型属于生成式预训练模型？

A.BERT

B.GPT

C.ELMo

D.RoBERTa

答案：B

解析：GPT（生成式预训练Transformer）基于自回归（Autoregressive）模式，通过前向词预测后续词，属于生成模型。其他选项（BERT、ELMo、RoBERTa）均为判别式预训练模型。

处理中文分词时，“北京大学”应被正确切分为？

A.北/京/大/学

B.北京/大学

C.北/京大学

D.北京大学

答案：B

解析：中文分词需符合语义单元，“北京”是地名，“大学”是机构类型，因此正确切分为“北京/大学”。A过细切分，C和D不符合语义边界。

情感分析的本质是？

A.文本生成

B.序列标注

C.文本分类

D.句法分析

答案：C

解析：情感分析需将文本分类为积极、消极或中性等类别，属于文本分类任务。A是生成新文本，B是序列标注，D是分析句子结构。

以下哪项不是Transformer模型的组成部分？

A.多头注意力层（Multi-HeadAttention）

B.位置编码（PositionalEncoding）

C.循环单元（RecurrentUnit）

D.前馈神经网络（Feed-ForwardNetwork）

答案：C

解析：Transformer完全基于自注意力机制，无循环单元。A、B、D均为其核心组件。

二、多项选择题（共10题，每题2分，共20分）

以下属于预训练语言模型的有？

A.GPT-3

B.BERT

C.Word2Vec

D.LSTM

答案：AB

解析：预训练语言模型通过大规模无监督数据训练通用语言表示（如GPT-3的自回归、BERT的自编码）。C是词嵌入模型（非完整语言模型），D是网络结构（非预训练模型）。

文本分类的常用评价指标包括？

A.准确率（Accuracy）

B.F1值

C.BLEU分数

D.AUC-ROC（多分类场景）

答案：ABD

解析：文本分类评估需关注分类正确性（准确率）、查准查全平衡（F1）、模型区分能力（AUC-ROC）。C是机器翻译指标。

以下哪些方法可用于解决长文本处理问题？

A.截断文本（Truncation）

B.滑动窗口

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

2026年自然语言处理工程师考试题库（附答案和详细解析）（0124）.docxVIP