2026年自然语言处理工程师考试题库（附答案和详细解析）（0111）.docxVIP

下载本文档

0
0
约7.36千字
约 10页
2026-02-17 发布于江苏
举报

2026年自然语言处理工程师考试题库（附答案和详细解析）（0111）.docx

自然语言处理工程师考试试卷

一、单项选择题（共10题，每题1分，共10分）

以下哪项不是自然语言处理（NLP）的核心子任务？

A.情感分析

B.图像分类

C.机器翻译

D.命名实体识别

答案：B

解析：自然语言处理的核心子任务包括文本分类、情感分析、机器翻译、命名实体识别等，而图像分类属于计算机视觉任务，因此选B。

BERT模型预训练阶段的主要任务是？

A.因果语言模型（CLM）和下一句预测（NSP）

B.掩码语言模型（MLM）和下一句预测（NSP）

C.掩码语言模型（MLM）和序列到序列生成（Seq2Seq）

D.因果语言模型（CLM）和语义相似度计算

答案：B

解析：BERT采用双向Transformer编码器，预训练任务为掩码语言模型（MLM）捕捉上下文信息，以及下一句预测（NSP）学习句子间关系。因果语言模型（CLM）是GPT等单向模型的任务，因此选B。

中文分词中，“北京大学”被正确切分为“北京/大学”，这属于？

A.正向最大匹配

B.逆向最大匹配

C.双向最大匹配

D.最小切分

答案：A

解析：正向最大匹配从左到右取最长词（如“北京大学”中先取“北京”，剩余“大学”），逆向最大匹配则从右到左。此处符合正向逻辑，因此选A。

以下哪项是机器翻译的常用评估指标？

A.BLEU

B.F1-score

C.AUC-ROC

D.MSE

答案：A

解析：BLEU（双语评估替换）是机器翻译的经典评估指标，通过n-gram匹配度衡量译文与参考译文的相似性。F1用于分类任务，AUC-ROC用于二分类，MSE是回归损失，因此选A。

情感分析任务本质上属于？

A.序列标注

B.文本生成

C.文本分类

D.语义匹配

答案：C

解析：情感分析通过分析文本情感倾向（如积极/消极），本质是将文本映射到预定义类别，属于文本分类任务，因此选C。

以下哪种模型采用了自注意力机制？

A.LSTM

B.Transformer

C.HMM

D.CRF

答案：B

解析：Transformer的核心创新是自注意力机制（Self-Attention），用于捕捉序列中任意位置的依赖关系。LSTM是循环神经网络，HMM和CRF是概率图模型，因此选B。

词向量（WordEmbedding）的主要作用是？

A.减少文本长度

B.将离散词转化为连续向量

C.提升文本生成速度

D.替代分词步骤

答案：B

解析：词向量通过低维连续向量表示词语，捕捉语义相似性（如“苹果”和“水果”向量相近），是NLP中特征表示的关键步骤，因此选B。

以下哪项不是预训练语言模型的典型应用？

A.文本分类微调

B.机器翻译微调

C.无监督分词

D.图像识别

答案：D

解析：预训练语言模型（如BERT、GPT）主要用于文本相关任务，图像识别属于计算机视觉，需多模态模型（如CLIP），因此选D。

计算两个句子语义相似度时，常用的方法是？

A.编辑距离

B.余弦相似度（词向量均值）

C.最大匹配长度

D.词性标注一致性

答案：B

解析：语义相似度通常通过句子向量（如词向量均值、预训练模型句向量）的余弦相似度计算，编辑距离衡量字符串差异，因此选B。

以下哪项是神经机器翻译（NMT）的特点？

A.依赖人工规则

B.端到端学习

C.基于短语表对齐

D.仅使用统计模型

答案：B

解析：神经机器翻译（如Transformer）通过深度神经网络实现端到端翻译（输入源语言序列，输出目标语言序列），无需人工规则或短语表，因此选B。

二、多项选择题（共10题，每题2分，共20分）

以下属于序列标注任务的有？

A.命名实体识别（NER）

B.词性标注（POS）

C.文本分类

D.中文分词

答案：ABD

解析：序列标注任务需为输入序列的每个元素分配标签（如“小明/NR来自/VE北京/NS”），包括NER、POS、分词。文本分类是为整体文本打标签，属于分类任务，因此选ABD。

Transformer模型的组成部分包括？

A.多头注意力（Multi-HeadAttention）

B.位置编码（PositionalEncoding）

C.循环神经网络（RNN）

D.前馈神经网络（FFN）

答案：ABD

解析：Transformer由编码器和解码器组成，每个层包含多头注意力、前馈网络和层归一化。位置编码用于补充序列顺序信息，RNN未被使用，因此选ABD。

以下属于预训练语言模型的有？

A.Word2Vec

B.BERT

C.GPT

D.ELMo

答案：BCD

解析：预训练语言模型（如BERT、GPT、ELMo）通过大规模无标注文本预训练，再微调至下游任务。Word2Vec是静态词向量模型，不包含上下文信息，因此选BCD。

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

2026年自然语言处理工程师考试题库（附答案和详细解析）（0111）.docxVIP