2025年线性代数数字人文中的文本挖掘试题.docVIP

2025年线性代数数字人文中的文本挖掘试题.doc

2025年线性代数数字人文中的文本挖掘试题

一、选择题（每题3分，共30分）

在文本挖掘中，将文档集合表示为“文档-词项矩阵”时，矩阵的行向量通常对应：

A.词汇表中的词语

B.单个文档的词频分布

C.词语间的共现关系

D.文档的分类标签

对某篇古代文献进行词频统计后得到向量x=[3,1,4,2]（分别对应“战争”“和平”“君主”“百姓”），若将其标准化为单位向量，则第一个元素（“战争”）的取值为：

A.3/√30

B.3/5

C.3/√26

D.1/4

下列关于矩阵奇异值分解（SVD）在文本挖掘中应用的表述，正确的是：

A.仅能用于文档聚类，无法实现降维

B.通过分解文档-词项矩阵，可提取文本的潜在主题

C.分解结果中的奇异值按升序排列

D.需先将文本数据转换为稀疏矩阵才能应用

某研究者用主成分分析（PCA）对100篇唐代诗歌的词向量矩阵进行降维，若协方差矩阵的特征值为λ?=5.2,λ?=3.8,λ?=1.5,...,λ?=0.1，则选择前两个主成分可解释的方差比例约为：

A.52%

B.70%

C.90%

D.95%

在情感分析中，若用线性方程组Ax=b表示词语情感得分的计算模型，其中A为词语关联矩阵，x为待求情感值向量，b为已知情感词得分向量，则方程组无解意味着：

A.情感词数量不足

B.词语间存在矛盾关联

C.矩阵A为单

更多 >