- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
自然语言处理工程师考试试卷
一、单项选择题(共10题,每题1分,共10分)
BERT模型在预训练阶段的核心任务是?
A.情感分类与文本生成
B.掩码语言模型(MLM)与下一句预测(NSP)
C.命名实体识别与关系抽取
D.机器翻译与问答系统
答案:B
解析:BERT的预训练任务设计为掩码语言模型(MLM)和下一句预测(NSP)。MLM通过随机遮盖部分输入词,让模型预测被遮盖的词,学习双向上下文表示;NSP用于学习句子间的语义关联。其他选项均为下游微调任务,而非预训练阶段的核心任务。
以下哪项是上下文无关的词嵌入模型?
A.BERT
B.GloVe
C.ELMo
D.ERNIE
答案:B
解析:GloVe(全局向量)通过共现矩阵训练词向量,每个词对应固定向量,属于上下文无关模型。BERT、ELMo、ERNIE均为上下文相关模型,其词向量随上下文变化。
循环神经网络(RNN)在处理长文本时的主要缺陷是?
A.无法并行计算
B.梯度消失/爆炸问题
C.参数量过大
D.无法处理序列输入
答案:B
解析:RNN的链式结构导致反向传播时梯度经过多次矩阵乘法,易出现梯度消失(长距离依赖信息丢失)或梯度爆炸(参数更新不稳定)。虽然RNN无法并行计算(A)是缺点,但长文本处理的核心问题是梯度问题。
当前主流的机器翻译方法属于?
A.基于规则的翻译(RBMT)
B.统计机器翻译(SMT)
C.神经机器翻译(NMT)
D.示例机器翻译(EBMT)
答案:C
解析:自2015年Transformer提出后,神经机器翻译(基于深度学习的端到端模型)已成为主流方法。其他选项均为早期方法,性能已被NMT超越。
注意力机制(Attention)的核心作用是?
A.减少模型参数量
B.捕捉输入序列中元素的依赖关系
C.加速模型训练
D.增强模型的可解释性
答案:B
解析:注意力机制通过计算查询(Query)与键(Key)的相似度,为每个输入元素分配权重,从而动态捕捉序列中长距离的依赖关系。减少参数量(A)是多头注意力的间接效果,加速训练(C)主要依赖并行计算。
以下哪个工具常用于中文分词?
A.spaCy
B.jieba
C.NLTK
D.Gensim
答案:B
解析:jieba是中文社区广泛使用的分词工具,支持精确模式、全模式和搜索引擎模式。spaCy(A)和NLTK(C)主要用于英文处理,Gensim(D)是主题模型工具。
文本分类任务中,若关注正类的查全率和查准率的调和平均,应选择以下哪个指标?
A.准确率(Accuracy)
B.精确率(Precision)
C.召回率(Recall)
D.F1值
答案:D
解析:F1值是精确率和召回率的调和平均(2(PR)/(P+R)),适用于需要平衡两者的场景。准确率(A)是整体正确比例,未区分正负类。
子词切分(BPE)的主要目的是?
A.减少词表大小
B.完全替代分词
C.提升模型训练速度
D.增强模型的可解释性
答案:A
解析:BPE(字节对编码)通过合并高频字符对生成子词,既能覆盖未登录词(如“apple”和“apples”共享子词“apple”),又能显著减少词表大小(相比词级切分)。
以下哪类对话系统需要明确的领域知识和意图识别?
A.开放域对话系统
B.任务型对话系统
C.闲聊对话系统
D.问答对话系统
答案:B
解析:任务型对话系统(如订机票、查天气)需要理解用户意图(如“预订”“查询”),并调用领域知识完成特定任务;开放域(A)和闲聊(C)侧重生成流畅文本,无明确任务目标。
潜在狄利克雷分配(LDA)的主要用途是?
A.文本分类
B.情感分析
C.主题模型
D.命名实体识别
答案:C
解析:LDA是生成式概率模型,假设文档由多个主题混合生成,每个主题对应词的概率分布,用于挖掘文本的隐含主题结构。
二、多项选择题(共10题,每题2分,共20分)
以下属于预训练语言模型的有?(至少2个正确选项)
A.BERT
B.LSTM
C.GPT
D.RoBERTa
答案:ACD
解析:BERT、GPT、RoBERTa均为基于大规模语料预训练的语言模型;LSTM(B)是循环神经网络结构,属于传统模型,未经过通用预训练。
以下属于自然语言处理任务的有?
A.情感分析
B.机器翻译
C.信息抽取
D.图像分类
答案:ABC
解析:情感分析(文本情感倾向判断)、机器翻译(文本跨语言转换)、信息抽取(从文本中提取结构化信息)均为NLP任务;图像分类(D)属于计算机视觉任务。
关于词向量(WordEmbedding)的描述,正确的有?
A.Word2Vec生成的词向量是上下文无关的
B.BERT生成的词向量是上下文相关的
您可能关注的文档
最近下载
- 风电项目考察报告编制模板.docx VIP
- 肝癌患者生命质量测定量表.pdf VIP
- 发那科Line tracking-追踪说明.pdf VIP
- 2025至2030玻璃行业项目调研及市场前景预测评估报告.docx VIP
- 5.2《大学之道》课件(共39张PPT) 2025-2026学年统编版高中语文选择性必修上册.pptx VIP
- 椭圆标准方程导学案.doc VIP
- 单片机烟雾检测报警系统设计方案.docx VIP
- 发那科机器人Line Tracking(直线追踪)FANUC.pdf VIP
- 眼的组织解剖和生理-医学课件.ppt VIP
- 2025年警务辅助人员招聘考试(时事政治+公安基础知识)题库.docx VIP
原创力文档


文档评论(0)