- 5
- 0
- 约3.22千字
- 约 30页
- 2019-09-06 发布于广东
- 举报
常言道:“物以类聚”,对事物分门别类进行研究,有利于我们做出正确的判断。日常生活中,我们不自觉地用定性方法将人分为“好人”、“坏人”;按熟悉程度分为“朋友”、“熟人”、“陌生人” 等等。 数理统计中的数值分类有两种问题: 判别分析:已知分类情况,将未知个体归入正确类别 聚类分析:分类情况未知,对数据结构进行分类 通过分类,有利于我们抓住重点,从总体上去把握事物,找出解决问题的方法。例如将股票进行分类,可以为我们投资提供参考。 一、聚类分析(Cluster Analysis)简介 聚类分析是直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类的分析技术。 要做聚类分析,首先得按照我们聚类的目的,从对象中提取出能表现这个目的的特征指标;然后根据亲疏程度进行分类。 聚类分析根据分类对象的不同可分为Q型和R型两大类 Q型是对样本进行分类处理,其作用在于: 能利用多个变量对样本进行分类 分类结果直观,聚类谱系图能明确、清楚地表达其数值分类结果 所得结果比传统的定性分类方法更细致、全面、合理 二、聚类对象 R型是对变量进行分类处理,其作用在于: 可以了解变量间及变量组合间的亲疏关系 可以根据变量的聚类结果及它们之间的关系,选择主要变量进行回归分析或Q型聚类分析 聚类的主要过程一般可分为如下四个步骤: 数据预处理(标准化) 构造关系矩阵(亲疏关系的描述) 聚类(根据不同方法进行分类) 确定最佳分类(类别数) 以下我们结合实际例子分步进行讨论。 三、聚类过程与方法 为什么要做数据变换 →指标变量的量纲不同或数量级相差很大,为了使这些数据能放到一起加以比较,常需做变换。 在SPSS中如何选择标准化方法: →Analyze →Classify →Hierachical Cluster Analysis →Method 然后从对话框中进行如下选择 1. 数据预处理(标准化) 例、下表给出了1982年全国28个省、市、自治区农民家庭收支情况,有六个指标,是利用调查资料进行聚类分析,为经济发展决策提供依据。 (详见文件1982“农民生活消费聚类.sav”) 从Transform Values框中点击向下箭头,将出现如下可选项,从中选一即可: 常用标准化方法(选项说明): None:不进行标准化,这是系统默认值 Z Scores:标准化变换 为了便于后面的说明,作如下假设: 均值表示为 标准差表示为 所有样本表示为 极差表示为 作用:变换后的数据均值为0,标准差为1,消去了量纲的影响;当抽样样本改变时,它仍能保持相对稳定性。 Range –1 to 1:极差标准化变换 作用:变换后的数据均值为0,极差为1,且|xij*|1,消去了量纲的影响;在以后的分析计算中可以减少误差的产生。 Maximum magnitude of 1 作用:变换后的数据最大值为1。 Range 0 to 1(极差正规化变换 / 规格化变换) 作用:变换后的数据最小为0,最大为1,其余在区间[0,1]内,极差为1,无量纲。 Mean of 1 作用:变换后的数据均值为1。 Standard deviation of 1 作用:变换后的数据标准差为1。 在SPSS中如何选择测度: →Analyze →Classify →Hierachical Cluster Analysis →Method 然后从对话框中进行如下选择 2. 构造关系矩阵 描述变量或样本的亲疏程度的数量指标有两种: 相似系数——性质越接近的样品,相似系数越接近于1或-1;彼此无关的样品相似系数则接近于0,聚类时相似的样品聚为一类 距离——将每一个样品看作m维空间的一个点,在这m维空间中定义距离,距离较近的点归为一类。 相似系数与距离有40多种,但常用的只是少数 从Measure框中点击Interval项的向下箭头,将出现如左可选项,从中选一即可。 常用测度(选项说明): Euclidean distance:欧氏距离 (二阶Minkowski距离) Squared Eucidean distance:平方欧氏距离 用途:聚类分析中用得最广泛的距离 但与各变量的量纲有关,未考虑指标间的相关性,也未考虑各变量方差的不同 用途:聚类分析中用得最广泛的距离 Cosine:夹角余弦(相似性测度) 用途:计算两个向量在原点处的夹角余弦。当两夹角为0o时,取值为1,说明极相似;当夹角为90o时,取值为0,说明两者不相关。 取值范围:0~1 Pearson correlation:皮尔逊相关系数 Chebychev:切比雪夫距离 用途:计算两个向量的皮尔逊相关系数 用途:计算两个向量的切比雪夫距离 Block:绝对值距离(一阶M
您可能关注的文档
- 中+医+食+疗(常见病).ppt
- 终稿:13.1分子热运动.ppt
- 货币的时间价值与风险分析.ppt
- 1.4.2a正弦函数、余弦函数的性质课件.ppt
- 1静电学—电势和静电能.ppt
- 2013届数学(文)第一轮第5章第34讲+向量的应用.ppt
- 保险公司业务培训教材+客户需求分析.ppt
- 成交技巧_第四章_如何利用价值塑造吸引顾客.ppt
- 第三章 论文的写作与修改.ppt
- 福建省市政工程技术文件管理规程培训课件.ppt
- 崇义县2025年公开招聘城市社区工作者笔试备考题库含答案.docx
- 孤立森林算法在电力碳交易数据异常排查中的应用.pdf
- Foshan Education Bureau 报名系统操作手册 用户手册.pdf
- HuaFu Securities条件单用户手册.pdf
- Imaging影像采集系统说明书用户手册.pdf
- China National Energy Group统一客商门户生态协平台用户手册.pdf
- CTBC亮點APP移动应用2025V1.0用户手册.pdf
- 2025防雷检测工程项目综合方案.pdf
- 广告语境中的方言刻板印象现象分析.pdf
- OneNet系统操作手册事件管理系统用户手册.pdf
原创力文档

文档评论(0)