- 0
- 0
- 约8.32千字
- 约 11页
- 2026-02-13 发布于上海
- 举报
自然语言处理工程师考试试卷
一、单项选择题(共10题,每题1分,共10分)
以下哪项是Word2Vec模型的核心训练目标?
A.生成符合语法的句子
B.预测上下文词或中心词
C.进行情感极性分类
D.提取文本中的关键实体
答案:B
解析:Word2Vec的核心是通过“上下文-中心词”或“中心词-上下文”的预测任务学习词向量(CBOW和Skip-gram模型)。A是语言模型目标,C是分类任务目标,D是命名实体识别任务目标,均错误。
BERT模型在预训练阶段不包含以下哪项任务?
A.掩码语言模型(MLM)
B.下一句预测(NSP)
C.序列到序列生成
D.词元级别的双向表征学习
答案:C
解析:BERT预训练任务是MLM(随机掩码部分词并预测)和NSP(判断两句子是否连续)。序列到序列生成是GPT等模型的训练目标,BERT本身是双向编码器,不直接生成序列,故C错误。
以下哪种模型属于生成式预训练模型?
A.BERT
B.GPT
C.RoBERTa
D.ALBERT
答案:B
解析:GPT(GenerativePre-trainedTransformer)是生成式模型,通过自回归方式训练(预测下一个词);BERT、RoBERTa、ALBERT均为双向编码器,属于判别式预训练模型,故B正确。
在情感分析任务中,F1分数主要衡量模型的:
A.预测速度
B.精确率和召回率的调和平均
C.对长文本的处理能力
D.不同类别间的区分度
答案:B
解析:F1分数计算公式为2(精确率召回率)/(精确率+召回率),是精确率和召回率的调和平均,用于综合评估分类模型的性能。A是效率指标,C是模型架构能力,D是混淆矩阵的整体表现,均错误。
以下哪项不是循环神经网络(RNN)的主要缺陷?
A.梯度消失/爆炸问题
B.难以并行化计算
C.无法捕捉长距离依赖
D.对词序不敏感
答案:D
解析:RNN通过隐状态传递捕捉序列顺序,对词序敏感(如“狗追猫”和“猫追狗”会被区分)。其缺陷包括梯度问题(A)、串行计算(B)、长距离依赖捕捉能力弱(C),故D错误。
中文分词中的“隐马尔可夫模型(HMM)”主要通过以下哪类概率进行解码?
A.发射概率和转移概率
B.词频统计概率
C.上下文语义概率
D.注意力权重概率
答案:A
解析:HMM将分词视为状态转移问题(状态为B/M/E/S),通过发射概率(字属于某状态的概率)和转移概率(状态间转移的概率)计算最优路径。B是基于统计的规则方法,C是深度学习模型特点,D是Transformer特性,故A正确。
机器翻译任务中,BLEU评估指标的核心是:
A.预测句与参考句的词序完全一致
B.不同长度n-gram的匹配度
C.句子的语法正确性
D.语义表示的向量相似度
答案:B
解析:BLEU通过计算预测句与参考句的n-gram(1-4元组)重叠率,并加权平均,最终考虑brevitypenalty(长度惩罚)。A要求过严,C是语法检查任务,D是余弦相似度指标,故B正确。
以下哪项属于非自回归生成模型?
A.Transformer解码器(自回归)
B.并行Transformer(Non-autoregressiveTransformer)
C.LSTM语言模型
D.GPT-3
答案:B
解析:非自回归模型可并行生成所有位置的词(如通过掩码预测),而自回归模型需按顺序生成(如A、C、D)。故B正确。
命名实体识别(NER)的常见标签体系不包括:
A.BIO
B.BILOU
C.IOBES
D.TF-IDF
答案:D
解析:TF-IDF是词重要性统计指标,非NER标签体系。BIO(Begin/Inside/Outside)、BILOU(Begin/Inside/Last/Outside/Unit)、IOBES(与BILOU类似)均为NER常用标签,故D错误。
以下哪种技术用于解决多模态NLP任务?
A.词嵌入(WordEmbedding)
B.视觉-语言对齐(Vision-LanguageAlignment)
C.注意力机制(Attention)
D.循环神经网络(RNN)
答案:B
解析:多模态任务需融合文本与其他模态(如图像),视觉-语言对齐技术(如CLIP模型)通过对齐图像和文本的表征实现。A是单模态文本处理,C、D是通用序列模型技术,故B正确。
二、多项选择题(共10题,每题2分,共20分)(每题至少2个正确选项)
以下属于预训练语言模型的有:
A.GloVe
B.BERT
C.ELMo
D.Word2Vec
答案:BC
解析:预训练语言模型(PLM)指通过大规模语料预训练、可迁移至下游任务的模型,BERT(双向)和ELMo(深度上下
您可能关注的文档
最近下载
- 2025年吉林省中考英语真题卷(含答案与解析).pdf VIP
- Tessent® Scan and ATPG User’s Manual详细完整手册.docx
- 2025高中数学 圆锥曲线解答题梳理(共9个题型)含解析 .pdf VIP
- 护理文书书写实践指南(2025年版).docx
- DBJ50_T-542-2026 建筑机器人应用技术标准.docx
- (完整)高考3500词汇表(word文档良心出品) .pdf VIP
- 2025及以后5年中国水果深加工产业市场发展及前景预测研究报告.docx
- 2015羊年七字春联带横批.doc VIP
- 2026年高考生物一轮复习:必背知识点考点讲义.pdf VIP
- 国家中小学智慧教育平台的应用培训.pptx VIP
原创力文档

文档评论(0)