SPSSStatistics培训第3天概要.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
SPSS Statistics 培训(三);LUNCH;SPSS Statistics 课程安排;SPSS Statistics 课程安排;SPSS Statistics 课程安排;SPSS Statistics 课程安排;7; 9.1聚类分析 9.1.1聚类分析定义 9.1.2系统聚类 9.1.3K-均值聚类 9.1.4两步聚类 ; 俗语说,物以类聚、人以群分 当有一个分类指标时,分类比较容易 但是多个指标时,进行分类就不是很容易了! 例如,对中国的区县进行分类: 自然条件:降水、土地、日照、湿度等 经济指标:收入水平、教育程度、医疗条件、基础设施等 平均的方法? 容易忽视相对重要程度的问题 要进行多元分类-聚类分析 ;一种探索性的数据分析技术 基本目标:在数据中寻找某种“自然的”分组结构 应用举例 细分市场 消费行为划分 设计抽样方案 ;聚类分析就是要找出具有相似程度的点或类聚为一类 如何衡量这个“相似程度”? 根据距离来确定 “距离”含义很广:如欧式距离,马氏距离…,相似系数 ;根据分析对象: R型聚类-对变量(指标)进行聚类 Q型聚类-对观测对象(个体、样品)进行聚类 根据方法: 层次聚类(Hierarchical Clustering) 非层次聚类 K-均值聚类 两步聚类 注:没有什么聚类方法,具有绝对优势 ; 9.1聚类分析 9.1.1聚类分析定义 9.1.2系统聚类 9.1.3K-均值聚类 9.1.4两步聚类 ;9.1.2 层次聚类;层次聚类方法可应用多种距离衡量个体/变量的相似性 利用哪种距离聚类取决于: 所分析的数据类型 哪种距离对于聚类最具有解释意义 类之间的距离定义包括: 最短距离法-Nearest Neighbor( Single Linkage) 最长距离法-Furthest Neighbor (Complete Linkage) 重心法-Centroid Clustering 组间(类)平均法-Between-groups Linkage 离差平方和法-Ward’s Method 此外还有中位数距离法(Median Clustering)、类内平均法(Within-Groups Linkage)等 ;优点 聚类变量可以是分类或连续型变量; 既可以对变量聚类,也可以对数据点/记录聚类(市场细分一般都是对记录聚类); 一次运行即可得到完整的分类序列; 不足 由于反复计算距离,在样本量太大或变量较多时,分层聚类的运算速度明显较慢(通常,建议样本量不超过200) ;;;;;;; 9.1聚类分析 9.1.1聚类分析定义 9.1.2系统聚类 9.1.3K-均值聚类 9.1.4两步聚类 ; K-均值聚类又叫快速聚类法: 首先,确定聚类的类别数(即K),选择n个数值型变量参与聚类分析 其次,由分析者指定或由系统自动根据数据结构中心选择k个(聚类的类数)观测值作为聚类的原始中心点 第三,逐一计算每一记录到各个类别中心点的距离,把各个记录按照距离最近的原则归入各个类别 第四,重新计算每个类中各个变量的均值,以此作为再次次迭代的中心 第五,按照新的中心位置重新计算每一记录达到中心的距离,即重复第三、第四步,直到中心的迭代标准达到要求时,聚类过程结束 ; 优点 K均值聚类的速度快于系统聚类,是处理大型数据集聚类的常用方法 内存占用小 不足 只适用于连续型变量; 只能对记录进行聚类,而不能对变量聚类; 对初始聚类中心有一定的依赖性; 由于要事先选定聚类数,所以要尝试多次,以找出最佳聚类 ;;;; 9.1聚类分析 9.1.1聚类分析定义 9.1.2系统聚类 9.1.3K-均值聚类 9.1.4两步聚类 ; 优点 可有效地分析大型数据集 可处理分类、定量型数据 可自动确定聚类数目(根据一定的统计指标“自动地”建议(理论上)最佳的聚类数量) 计算过程 Pre-cluster Step:生成聚类特征树,将记录预聚类 Clustering Step:进行层次聚类,根据BIC,AIC准则及相邻两步的最小类间距离比确定最终聚类数 相关假定 连续型变量不相关,并服从正态分布 分类型变量不相关,并服从多项分布 比较稳健,不满足上述假设时,有时也可以得到很好的结果 ;;以对数似然函数作为聚类度量时,标准化无影响,可通过“选项”将标准化剔除 可通过高级选型调整CF树生成准则;;9.2判别分析 9.2.1判别分析定义 9.2.2常用判别分析方法介绍 9.2.3判别效果评估 9.2.4SPSS实现 9.2.5总结 ;9.2.1 判别分析定义;9.2.1 判别分析定义;9.2.1 判别分析定义;9.2判别分析 9.2.1判别分析定义 9.2.2常用判别分析方法介绍 9.2.3判别效果评估 9.2.4SPSS实现 9.2.5总结 ;9.2.2.1 距离判

文档评论(0)

三沙市的姑娘 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档