- 49
- 0
- 约4.76千字
- 约 30页
- 2020-08-15 发布于天津
- 举报
常言道:“物以类聚”,对事物分门别类进行研究, 有利于我们做出正确的判断。日常生活中,我们不自觉 地用定性方法将人分为“好人”、“坏人”;按熟悉程 度分为“朋友”、“熟人”、“陌生人” 等等。 数理统计中的数值分类有两种问题: ? 判别分析:已知分类情况,将未知个体归入正确类别 ? 聚类分析:分类情况未知,对数据结构进行分类 通过分类,有利于我们抓住重点,从总体上去把握 事物,找出解决问题的方法。例如将股票进行分类, 可以为我们投资提供参考。 一、聚类分析( Cluster Analysis )简介 聚类分析是直接比较各事物之间的性质,将性质 相近的归为一类,将性质差别较大的归入不同的类的分 析技术。 要做聚类分析,首先得按照我们聚类的目的,从对 象中 提取 出能表现这个目的的 特征指标 ;然后根据亲 疏程度进行分类。 聚类分析根据分类对象的不同可分为 Q 型和 R 型两大类 Q 型是对样本进行分类处理,其作用在于 : 1. 能利用多个变量对样本进行分类 2. 分类结果直观,聚类谱系图能明确、清楚地表达 其数值分类结果 3. 所得结果比传统的定性分类方法更细致、全面、 合理 二、聚类对象 R 型是对变量进行分类处理,其作用在于: 1. 可以了解变量间及变量组合间的亲疏关系 2. 可以根据变量的聚类结果及它们之间的关系, 选择主要变量进行回归分析或 Q 型聚类分析 聚类的主要过程一般可分为如下四个步骤: 1. 数据预处理(标准化) 2. 构造关系矩阵(亲疏关系的描述) 3. 聚类(根据不同方法进行分类) 4. 确定最佳分类(类别数) 以下我们结合实际例子分步进行讨论。 三、聚类过程与方法 1) 为什么要做数据变换 → 指标变量的量纲不同或数量级相差很大,为了使这 些数据能放到一起加以比较,常需做变换。 2) 在 SPSS 中如何选择标准化方法 : →Analyze →Classify →Hierachical Cluster Analysis →Method 然后从对话框中进行如下选择 1. 数据预处理(标准化) 例、下表给出了 1982 年全国 28 个省、市、自治区农民家 庭收支情况,有六个指标,是利用调查资料进行聚类分 析,为经济发展决策提供依据。 (详见文件 1982“ 农民生活消费聚类 .sav” ) 从 Transform Values 框 中点击向下箭头,将 出现如下可选项,从 中选一即可: 3) 常用标准化方法(选项说明): a) None :不进行标准化,这是系统默认值 b) Z Scores :标准化变换 为了便于后面的说明,作如下假设: ? ? ? ? ? ? ? ? ? ? ? nm n m x x x x X ? ? ? ? ? 1 1 11 均值表示为 ? ? ? n i ij j x n x 1 1 标准差表示为 ? ? ? ? ? ? ? n i j ij j x x n S 1 2 1 1 所有样本表示为 极差表示为 ij n i ij n i j x x R ? ? ? ? ? ? 1 1 min max ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? m j n i S S S x x x j j j j ij ij , , 2 , 1 , , 2 , 1 0 0 0 * ? ? 若 若 作用 :变换后的数据均值为 0 ,标准差为 1 ,消去 了量纲的影响;当抽样样本改变时,它仍能保 持相对稳定性。 c) Range – 1 to 1 :极差标准化变换 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? m j n i R x R R x x x j ij j j j ij ij , , 2 , 1 , , 2 , 1 0 0 * ? ? 若 若 作用 :变换后的数据均值为 0 ,极差为 1 ,且 | x ij * |1 , 消去了量纲的影响;在以后的分析计算中可以减 少误差的产生。 d) Maximum magnitude of 1 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? m j n i x x x x x x x ij n i ij n i ij ij n i ij n i ij ij , , 2 , 1 , , 2 , 1 0 max 1 min 0 max max 1 1 1 1 * ? ? 若 若 作用 :变换后的数据最大值为 1 。 e) Range 0 to 1 (极差正规化变换 / 规格化变换) ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? m j n i R R R x x x j
您可能关注的文档
最近下载
- T_XJNYZLXH 003-2025 库尔勒香梨膏.docx VIP
- 2026年深圳市高三第一次调研考试(一模)数学试卷(含答案解析).pdf
- 2025年辽宁金融职业学院单招职业适应性测试模拟试题(附答案解析)2025.pdf VIP
- 2025版中国急性胰腺炎诊治指南(全文).pdf VIP
- 清洁生产审核课件(71) .pptx VIP
- 第4课时 被减数中间有0的连续退位减法 课件 2026青岛版数学三年级下册.pptx
- 剖宫产麻醉管理.pptx VIP
- 专题10:记叙文阅读之伏笔照应-备战2025年中考语文一轮复习现代文阅读讲与练(江苏通用)(解析版).docx VIP
- 2025年一级造价工程师(交通)案例分析真题及答案解析(100%全真题精校版精品.pdf VIP
- 幼儿园总务处维修记录表.docx VIP
原创力文档

文档评论(0)