NLP 技术工程师考试试卷及答案.docVIP

  • 0
  • 0
  • 约2.63千字
  • 约 5页
  • 2026-02-14 发布于山东
  • 举报

NLP技术工程师考试试卷及答案

一、填空题(每题1分,共10分)

1.中文分词中常用的统计方法有______和HMM等。

2.Word2Vec的两种训练模型是CBOW和______。

3.BERT是基于______预训练的双向Transformer模型。

4.文本表示方法除词袋模型外,还有______等。

5.NER任务识别文本中的人名、地点、______等实体。

6.注意力机制核心公式:Attention(Q,K,V)=softmax(QK?/√d?)______。

7.GPT是基于______的自回归模型。

8.文本分类评价指标有准确率、召回率和______。

9.jieba的三种分词模式:精确、全模式和______。

10.Transformer编码器由多个______层堆叠而成。

二、单项选择题(每题2分,共20分)

1.以下不是预训练语言模型的是?

A.BERTB.GPTC.LSTMD.RoBERTa

2.CBOW模型的特点是?

A.上下文预测中心词B.中心词预测上下文C.双向预测D.无监督

3.NER标注体系不包括?

A.BIOB.BIOESC.IOBD.BERT

4.多头注意力的基础是?

A.自注意力B.交叉注意力C.全局注意力D.局部注意力

5.GPT采用的是?

A.掩码语言模型B.自回归模型C.双向模型D.序列到序列

6.词向量的维度通常是?

A.100B.文本长度C.词汇表大小D.句子数量

7.jieba精确模式的特点是?

A.无冗余分词B.全部分词C.适合搜索D.无歧义

8.引入相对位置编码的模型是?

A.BERTB.RoBERTaC.XLNetD.GPT-2

9.正负样本不平衡时常用的评价指标是?

A.准确率B.召回率C.F1值D.精确率

10.NLP基础任务是?

A.图像识别B.分词C.语音合成D.目标检测

三、多项选择题(每题2分,共20分,多选少选不得分)

1.属于预训练语言模型的有?

A.BERTB.GPT-3C.LSTMD.XLNet

2.Word2Vec训练方式包括?

A.CBOWB.Skip-gramC.MLMD.NSP

3.NER标注类型包括?

A.人名B.地点C.机构D.数字

4.Transformer组成部分包括?

A.编码器B.解码器C.自注意力D.前馈网络

5.文本表示方法有?

A.词袋模型B.TF-IDFC.Word2VecD.BERTEmbedding

6.注意力机制类型包括?

A.自注意力B.交叉注意力C.多头注意力D.全局注意力

7.属于文本分类任务的是?

A.情感分析B.新闻分类C.NERD.问答系统

8.BERT预训练任务包括?

A.MLMB.NSPC.掩码实体预测D.自回归

9.中文分词工具包括?

A.jiebaB.THULACC.LTPD.spaCy

10.属于序列到序列模型的是?

A.TransformerB.Seq2Seq(RNN-based)C.GPTD.BERT

四、判断题(每题2分,共20分,对√错×)

1.Word2Vec是无监督词向量模型。

2.BERT是单向Transformer模型。

3.NER属于序列标注任务。

4.注意力中d?是Q和K的维度。

5.GPT只能生成从左到右的文本。

6.TF-IDF是有监督文本表示方法。

7.jieba全模式输出所有可能分词。

8.XLNet引入置换语言模型。

9.准确率只适合样本平衡的分类任务。

10.Transformer解码器包含自注意力和交叉注意力。

五、简答题(每题5分,共20分,200字左右)

1.简述Word2Vec的核心思想。

2.简述BERT的预训练任务。

3.简述NER任务的流程。

4.简述Transformer的自注意力机制。

六、讨论题(每题5分,共10分,200字左右)

1.对比BERT和GPT的核心差异。

2.如何解决中文分词中的歧义问题?

---

参考答案

一、填空题

1.CRF2.Skip-gram3.掩码语言模型(MLM)4.TF-IDF5.机构6.V7.自回归语言模型8.F1值9.搜索引擎模式10.自注意力+前馈神经网络

二、单项选择题

1.C2.A3.D4.A5.B6.A7.A8.C9.C10.B

三、多项选择题

1.ABD2.AB3.ABCD4.ABCD5.ABCD6.ABCD7.AB8.AB9.ABC10.AB

四、判断题

1.√2.×3.√4.√5.√6.×7.√8.√9.√10.√

五、简答题

1.Word2Vec是无监督词向量模型,将词映射为低维稠密向量,使语义相似词向量距离近。含CBOW(上下文预测中心词)和Skip-gram(中心词预测上下文)两种模型,通过负采样优化训练,解决传统词袋的稀疏性问题,支持后续NLP任务。

2.BERT预训练含两个任务:①掩码语言

文档评论(0)

1亿VIP精品文档

相关文档