数据挖掘历年题库及分析.docxVIP

数据挖掘历年题库及分析.docx

数据挖掘历年题库及分析

一、单项选择题（共10题，每题1分，共10分）

在数据挖掘中，旨在发现数据中不同对象的共性，并将具有相似特征的对象自动聚合到同一组的过程被称为（）。

A.分类

B.回归

C.聚类

D.关联分析

答案：C

解析：聚类分析是一种无监督学习方法，其核心目标是根据数据的相似性将数据对象划分成不同的簇，使得同一簇内的对象相似度尽可能高，不同簇间的对象相似度尽可能低。分类是监督学习，需要已知类别标签；回归是预测连续值；关联分析是发现数据项之间的有趣联系。

以下哪种数据预处理技术主要用于处理数据集中属性值范围差异过大的问题？（）

A.数据清洗

B.数据集成

C.数据变换

D.数据归约

答案：C

解析：数据变换包括归一化和标准化等方法，旨在将不同量纲或取值范围差异巨大的属性值转换到统一的尺度上，以避免在后续分析（如距离计算）中某些属性因数值大而占据主导地位。数据清洗处理缺失值、噪声等；数据集成合并多个数据源；数据归约旨在减少数据量但保持完整性。

在关联规则挖掘中，用于衡量规则“A→B”的可靠性的指标是（）。

A.支持度

B.置信度

C.提升度

D.频繁项集

答案：B

解析：置信度定义为“包含A的事务中也包含B的条件概率”，即P(B|A)，它衡量了规则的可信程度。支持度衡量规则在数据集中出现的普遍性；提升度衡量规则中A与B的相关性；频繁项集是满足

更多 >