2025年线性代数数字人文中的文本挖掘试题.docVIP

  • 1
  • 0
  • 约3.06千字
  • 约 8页
  • 2026-05-27 发布于江苏
  • 举报

2025年线性代数数字人文中的文本挖掘试题.doc

2025年线性代数数字人文中的文本挖掘试题

一、选择题(每题3分,共30分)

在文本挖掘中,将文档集合表示为“文档-词项矩阵”时,矩阵的行向量通常对应:

A.词汇表中的词语

B.单个文档的词频分布

C.词语间的共现关系

D.文档的分类标签

对某篇古代文献进行词频统计后得到向量x=[3,1,4,2](分别对应“战争”“和平”“君主”“百姓”),若将其标准化为单位向量,则第一个元素(“战争”)的取值为:

A.3/√30

B.3/5

C.3/√26

D.1/4

下列关于矩阵奇异值分解(SVD)在文本挖掘中应用的表述,正确的是:

A.仅能用于文档聚类,无法实现降维

B.通过分解文档-词项矩阵,可提取文本的潜在主题

C.分解结果中的奇异值按升序排列

D.需先将文本数据转换为稀疏矩阵才能应用

某研究者用主成分分析(PCA)对100篇唐代诗歌的词向量矩阵进行降维,若协方差矩阵的特征值为λ?=5.2,λ?=3.8,λ?=1.5,...,λ?=0.1,则选择前两个主成分可解释的方差比例约为:

A.52%

B.70%

C.90%

D.95%

在情感分析中,若用线性方程组Ax=b表示词语情感得分的计算模型,其中A为词语关联矩阵,x为待求情感值向量,b为已知情感词得分向量,则方程组无解意味着:

A.情感词数量不足

B.词语间存在矛盾关联

C.矩阵A为单

文档评论(0)

1亿VIP精品文档

相关文档