2026年自然语言处理工程师考试题库（附答案和详细解析）（0116）.docxVIP

下载本文档

1
0
约7.8千字
约 10页
2026-03-08 发布于江苏
举报

2026年自然语言处理工程师考试题库（附答案和详细解析）（0116）.docx

自然语言处理工程师考试试卷

一、单项选择题（共10题，每题1分，共10分）

以下哪项是Word2Vec模型的核心训练目标？

A.预测文本情感倾向

B.生成符合语法的句子

C.学习词的分布式向量表示

D.识别文本中的命名实体

答案：C

解析：Word2Vec的核心是通过滑动窗口的上下文预测任务（CBOW或Skip-gram），学习词的低维连续向量表示（分布式表示），因此选C。A是情感分析任务，B是语言生成任务，D是命名实体识别任务，均非Word2Vec目标。

BERT模型的预训练任务不包括以下哪项？

A.掩码语言模型（MLM）

B.下一句预测（NSP）

C.序列到序列生成

D.上下文词向量学习

答案：C

解析：BERT的预训练任务是MLM（随机掩码部分输入词并预测）和NSP（判断两句子是否连续），因此C错误。D是MLM任务的间接目标，属于BERT的能力。

循环神经网络（RNN）的主要缺陷是？

A.参数数量过多

B.无法处理变长序列

C.长距离依赖问题

D.难以并行计算

答案：C

解析：RNN通过时间步传递隐藏状态，但梯度消失/爆炸问题导致其难以捕捉长距离依赖关系（如“我有一只猫，它的____很软”中“猫”和“毛”的关联），因此选C。D是RNN的特点但非主要缺陷，A、B表述错误。

命名实体识别（NER）属于以下哪类任务？

A.文本分类

B.序列标注

C.文本生成

D.机器翻译

答案：B

解析：NER需要为文本中每个token分配实体标签（如“北京”→LOC），本质是序列标注任务（每个位置有独立标签），因此选B。A是为整段文本打单标签，C、D是生成新文本。

词袋模型（Bag-of-Words）的主要缺点是？

A.无法表示词序信息

B.维度过低

C.计算复杂度高

D.无法处理生僻词

答案：A

解析：词袋模型仅统计词频，忽略词的顺序（如“猫追狗”和“狗追猫”会被视为相同），因此选A。B错误（词袋维度等于词汇表大小，通常很高），C、D非主要缺点。

ELMo（EmbeddingsfromLanguageModels）的核心特点是？

A.静态词向量（上下文无关）

B.动态词向量（上下文相关）

C.仅利用单向语言模型

D.完全基于注意力机制

答案：B

解析：ELMo通过双向LSTM生成每个词的上下文相关向量（同一词在不同语境下向量不同），因此选B。A是Word2Vec的特点，C错误（ELMo用双向模型），D错误（ELMo基于LSTM）。

文本分类任务中，最常用的综合评价指标是？

A.BLEU分数

B.Perplexity（困惑度）

C.F1-score

D.余弦相似度

答案：C

解析：文本分类需平衡精确率（Precision）和召回率（Recall），F1-score是二者的调和平均，因此选C。A用于机器翻译，B用于语言模型，D用于语义相似度。

Transformer模型中，位置编码（PositionalEncoding）的作用是？

A.替代循环神经网络

B.提供词的顺序信息

C.降低模型参数量

D.增强注意力的全局相关性

答案：B

解析：Transformer的自注意力机制本身不感知词序，位置编码通过正弦/余弦函数或可学习参数为每个位置添加顺序信息，因此选B。A是Transformer的整体目标，C、D非位置编码的核心作用。

当前主流的神经机器翻译（NMT）模型基于以下哪种架构？

A.循环神经网络（RNN）

B.卷积神经网络（CNN）

C.Transformer

D.深度信念网络（DBN）

答案：C

解析：自2017年《AttentionIsAllYouNeed》提出后，Transformer因其并行计算和长距离依赖捕捉能力，成为机器翻译的主流架构，因此选C。A、B已被Transformer超越，D不用于NLP。

情感分析（SentimentAnalysis）本质上属于以下哪类任务？

A.序列标注

B.文本生成

C.文本分类

D.问答系统

答案：C

解析：情感分析需将文本划分为积极/消极/中性等类别，属于单标签或多标签文本分类任务，因此选C。A是序列级标签，B、D是生成或问答任务。

二、多项选择题（共10题，每题2分，共20分）

以下属于预训练语言模型的有？（至少2个正确选项）

A.Word2Vec

B.BERT

C.GPT

D.RoBERTa

答案：BCD

解析：预训练语言模型（PLM）是在大规模语料上预训练后微调的模型，BERT、GPT、RoBERTa均属此类。Word2Vec是词向量模型（非完整语言模型），因此A错误。

文本分类任务中，常用的特征表示方法包括？

A.TF-IDF

B.词袋模型（BoW）

C.预训练词向量（如

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

2026年自然语言处理工程师考试题库（附答案和详细解析）（0116）.docxVIP