2026年自然语言处理工程师考试题库(附答案和详细解析)(0108).docxVIP

  • 0
  • 0
  • 约9.19千字
  • 约 12页
  • 2026-01-24 发布于江苏
  • 举报

2026年自然语言处理工程师考试题库(附答案和详细解析)(0108).docx

自然语言处理工程师考试试卷

一、单项选择题(共10题,每题1分,共10分)

以下属于基于统计的中文分词方法是()

A.最大匹配法

B.隐马尔可夫模型(HMM)

C.正向减字法

D.逆向最大匹配法

答案:B

解析:基于统计的分词方法通过训练语料学习分词规律,HMM通过状态转移概率和发射概率建模分词过程,属于统计方法。A、C、D均为基于规则的分词方法,依赖词典和预设规则(如最大匹配长度)。

BERT模型的核心创新是()

A.引入循环神经网络(RNN)

B.采用双向Transformer编码器

C.使用自回归语言模型

D.仅基于词级别的特征提取

答案:B

解析:BERT的核心是双向Transformer编码器(BidirectionalTransformer),通过掩码语言模型(MLM)实现双向上下文理解。A错误(BERT无RNN);C是GPT的特点(自回归);D错误(BERT支持子词级特征,如WordPiece)。

命名实体识别(NER)的主要任务是()

A.分析句子的语法结构

B.识别文本中的特定类别实体(如人名、地名)

C.生成与输入文本语义相关的新句子

D.判断两个句子的语义相似度

答案:B

解析:NER的目标是标注文本中具有特定意义的实体(如人名、机构名、时间等),属于信息抽取任务。A是句法分析;C是文本生成;D是语义相似性任务。

以下哪项不是文本分类的评价指标?()

A.准确率(Accuracy)

B.BLEU分数

C.F1值

D.精确率(Precision)

答案:B

解析:BLEU分数主要用于评估机器翻译的生成质量,文本分类常用准确率、精确率、召回率、F1值等。

循环神经网络(RNN)的主要缺陷是()

A.无法处理变长序列

B.长距离依赖导致的梯度消失/爆炸

C.参数量过大难以训练

D.不支持并行计算

答案:B

解析:RNN的链式结构导致反向传播时梯度经过多次矩阵乘法,易出现梯度消失(长序列)或爆炸(极端情况),难以捕捉长距离依赖。A错误(RNN可处理变长序列);C是Transformer的问题;D是RNN的特点(非缺陷,而是并行性差)。

以下属于无监督学习的NLP任务是()

A.情感分析(标注数据训练)

B.词向量(Word2Vec)训练

C.机器翻译(监督训练)

D.文本摘要(有标签数据)

答案:B

解析:Word2Vec通过无监督方式(上下文预测)学习词向量,无需人工标注标签。A、C、D均需标注数据(监督学习)。

词袋模型(Bag-of-Words)的主要缺点是()

A.忽略词序和上下文

B.无法处理多语言

C.计算复杂度高

D.仅支持英文

答案:A

解析:词袋模型将文本视为词的集合,不考虑词的顺序和上下文关系(如“猫追狗”和“狗追猫”会被视为相同),导致语义丢失。B、D错误(词袋模型无语言限制);C错误(词袋计算复杂度低)。

以下哪种技术用于解决OOV(未登录词)问题?()

A.子词分词(SubwordTokenization)

B.最大匹配分词

C.TF-IDF

D.余弦相似度

答案:A

解析:子词分词(如WordPiece、BPE)将未登录词拆分为已知子词(如“unhappiness”拆为“un”+“happiness”),缓解OOV问题。B是分词方法;C是特征加权;D是相似度计算。

机器翻译中,BLEU分数的计算基于()

A.生成文本与参考文本的n-gram匹配度

B.句子的句法结构相似度

C.词向量的余弦相似度

D.人工标注的语义评分

答案:A

解析:BLEU(BilingualEvaluationUnderstudy)通过计算生成文本与参考文本的n-gram(1-gram到4-gram)重叠率评估翻译质量,是最常用的自动评估指标。

以下属于预训练语言模型的是()

A.SVM(支持向量机)

B.LDA(隐含狄利克雷分配)

C.GPT-3

D.CRF(条件随机场)

答案:C

解析:GPT-3是典型的预训练语言模型(基于Transformer的自回归模型)。A是分类模型;B是主题模型(无监督);D是序列标注模型(判别式)。

二、多项选择题(共10题,每题2分,共20分)(每题至少2个正确选项)

以下属于Transformer模型组成部分的有()

A.多头注意力机制(Multi-HeadAttention)

B.位置编码(PositionalEncoding)

C.循环层(RecurrentLayer)

D.前馈神经网络(Feed-ForwardNetwork)

答案:ABD

解析:Transformer由多头注意力、位置编码(解决序列顺序问题)、前馈网络组成,无循环层(C错误)。

文档评论(0)

1亿VIP精品文档

相关文档