- 26
- 0
- 约4.14千字
- 约 18页
- 2022-07-10 发布于山西
- 举报
第四章
聚类分析
Cluster Analysis;一、聚类分析的作用和性质
聚类分析是根据事物本身的特性来研究个体分类的方法。原理是保证类别内部的差异尽可能小,而类别间的差异尽可能大。(有限样本,分类特征多个)
应用:通过聚类分析,将性质相近的样本个体归为一类,保证类与类之间存在差异,这样在总体上形成研究对象(样本)的若干类别。认识逻辑上属于辨别数据关系结构。
主要的应用是对样本进行分类,称Q型聚类,另有对变量进行的分类称R型聚类,但较少使用。缩减变量所做的操作一般使用因子分析。(聚类数学基础太弱,探索性分析,硬性的计算,所以尽量不用聚类);性质:
1)多元分析(多个分类标准同时进行分类辨别)。
2)探索性分析,即没有专门的统计理论支持分类过程,也缺乏有效的统计检验支持分类结果。(数据挖掘)
聚类完成后可进行判别分析,即根据样本的类属求出判别函数,再根据判别函数对未知所属类别的事物进行分类。(心理学小数据库);二、聚类分析的基本步骤及测量原理
1、根据研究目的确定合适的聚类变量
对聚类变量的要求:对样本而言确有明确差异;变量间不能高度相关(若3个高度相关,可以去掉一个);聚类变量的数目适中,并非越多越好。有时聚类效果不好,即是聚类变量选择不当,这时需要增减聚类变量。
聚类变量主要使用定距变量,若定类或定序变量希望被使用则必须转变成为虚拟变量,且操作完全按定距变量处理。若定距变量
原创力文档

文档评论(0)