- 0
- 0
- 约9.27千字
- 约 12页
- 2026-02-01 发布于上海
- 举报
自然语言处理工程师考试试卷(总分100分)
一、单项选择题(共10题,每题1分,共10分)
Word2Vec模型的核心训练目标是以下哪一项?
A.预测当前词的类别标签
B.最大化上下文词与目标词的共现概率
C.生成符合语法的完整句子
D.计算两个句子的语义相似度
答案:B
解析:Word2Vec通过“上下文预测目标词”(CBOW)或“目标词预测上下文”(Skip-gram)的方式,本质是最大化上下文词与目标词的共现概率,从而学习词的分布式表示。选项A是分类任务目标,C是生成模型目标,D是句子嵌入任务目标,均不符合。
BERT预训练阶段的主要任务是?
A.单向语言模型(LM)
B.掩码语言模型(MLM)+下一句预测(NSP)
C.序列到序列(Seq2Seq)生成
D.情感极性分类
答案:B
解析:BERT的预训练任务包括两部分:通过随机掩码输入中的15%词并预测(MLM)学习双向语义;通过判断两句话是否连续(NSP)学习句子级关系。选项A是GPT的训练方式,C是机器翻译任务,D是下游微调任务,均错误。
循环神经网络(RNN)在处理长文本时的主要缺陷是?
A.参数数量过多导致过拟合
B.无法并行计算,训练效率低
C.梯度消失/爆炸导致长期依赖问题
D.无法处理变长序列
答案:C
解析:RNN通过链式结构传递信息,但反向传播时梯度会随时间步长指数级衰减(梯度消失)或增长(梯度爆炸),导致无法捕捉长距离依赖。选项B是RNN的特点但非主要缺陷;A和D可通过正则化和填充解决,并非核心问题。
以下哪项属于自然语言生成(NLG)任务?
A.文本分类
B.机器翻译
C.命名实体识别(NER)
D.关键词提取
答案:B
解析:NLG的目标是从结构化或非结构化输入生成自然语言文本,机器翻译是典型的输入(源语言句子)到输出(目标语言句子)的生成任务。其他选项均为理解任务(分类、标注、抽取)。
词袋模型(Bag-of-Words)的主要局限性是?
A.无法处理多语言文本
B.忽略词序和上下文信息
C.计算复杂度高
D.无法处理未登录词
答案:B
解析:词袋模型仅统计词频,不考虑词在句子中的顺序(如“猫追狗”和“狗追猫”会被视为相同),也不捕捉上下文语义。选项D是所有基于固定词表模型的共性问题,非词袋特有;A和C表述错误。
以下哪种模型属于生成式预训练模型?
A.BERT
B.GPT
C.RoBERTa
D.XLNet
答案:B
解析:GPT(GenerativePre-trainedTransformer)基于自回归(Autoregressive)模式,通过单向语言模型预训练,属于生成式模型;BERT、RoBERTa、XLNet均为判别式模型(通过MLM等任务学习表示)。
用于衡量机器翻译质量的常用指标是?
A.BLEU(双语评估替补分数)
B.F1分数
C.AUC-ROC
D.困惑度(Perplexity)
答案:A
解析:BLEU通过计算生成句子与参考句子的n-gram匹配率评估翻译质量,是机器翻译领域的标准指标。F1用于分类任务,AUC-ROC用于二分类,困惑度衡量语言模型的概率分布质量。
以下哪项是Transformer模型中位置编码(PositionalEncoding)的作用?
A.替代循环结构以捕捉序列顺序
B.增加模型的参数量
C.提升模型的并行计算能力
D.缓解过拟合问题
答案:A
解析:Transformer的自注意力机制本身不包含序列顺序信息,位置编码通过正弦/余弦函数或可学习参数为每个位置添加位置信息,从而替代RNN的顺序建模能力。选项C是多头注意力的作用,B和D与位置编码无关。
以下哪种方法可用于解决低资源语言的NLP任务?
A.增加训练数据的噪声
B.跨语言迁移学习(如利用高资源语言的预训练模型)
C.仅使用单字特征而非词特征
D.降低模型的层数
答案:B
解析:低资源语言缺乏足够标注数据时,跨语言迁移(如用英语预训练模型初始化,再用目标语言微调)是常用方法。选项A可能降低模型性能,C和D无明确依据。
情感分析任务的本质是?
A.文本生成
B.序列标注
C.文本分类(细粒度或粗粒度)
D.问答系统
答案:C
解析:情感分析通过分析文本的情感倾向(如积极/消极/中性),本质是将文本映射到预定义的情感类别中,属于文本分类任务。
二、多项选择题(共10题,每题2分,共20分)(每题至少2个正确选项)
以下属于Transformer模型核心组件的有?
A.循环单元(RNNCell)
B.多头注意力(Multi-HeadAttention)
C.前馈神经网络(Feed-ForwardNetwork)
D.位置编码(Positional
原创力文档

文档评论(0)