SPSSStatistics培训第3天概要.pptx

下载文档 降价啦

5
0
约1.04万字
约 165页
2016-11-18 发布于湖北
举报
版权申诉
保障服务

SPSSStatistics培训第3天概要.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

SPSS Statistics 培训(三);LUNCH;SPSS Statistics 课程安排;SPSS Statistics 课程安排;SPSS Statistics 课程安排;SPSS Statistics 课程安排;7; 9.1聚类分析 9.1.1聚类分析定义 9.1.2系统聚类 9.1.3K-均值聚类 9.1.4两步聚类 ; 俗语说，物以类聚、人以群分当有一个分类指标时，分类比较容易但是多个指标时，进行分类就不是很容易了！例如，对中国的区县进行分类：自然条件：降水、土地、日照、湿度等经济指标：收入水平、教育程度、医疗条件、基础设施等平均的方法？容易忽视相对重要程度的问题要进行多元分类－聚类分析 ;一种探索性的数据分析技术基本目标：在数据中寻找某种“自然的”分组结构应用举例细分市场消费行为划分设计抽样方案 ;聚类分析就是要找出具有相似程度的点或类聚为一类如何衡量这个“相似程度”？根据距离来确定 “距离”含义很广：如欧式距离，马氏距离…,相似系数 ;根据分析对象： R型聚类－对变量（指标）进行聚类 Q型聚类－对观测对象（个体、样品）进行聚类根据方法：层次聚类(Hierarchical Clustering) 非层次聚类 K－均值聚类两步聚类注:没有什么聚类方法，具有绝对优势 ; 9.1聚类分析 9.1.1聚类分析定义 9.1.2系统聚类 9.1.3K-均值聚类 9.1.4两步聚类 ;9.1.2 层次聚类;层次聚类方法可应用多种距离衡量个体/变量的相似性利用哪种距离聚类取决于：所分析的数据类型哪种距离对于聚类最具有解释意义类之间的距离定义包括：最短距离法－Nearest Neighbor( Single Linkage) 最长距离法－Furthest Neighbor (Complete Linkage) 重心法－Centroid Clustering 组间（类）平均法－Between－groups Linkage 离差平方和法－Ward’s Method 此外还有中位数距离法（Median Clustering)、类内平均法(Within-Groups Linkage)等 ;优点聚类变量可以是分类或连续型变量；既可以对变量聚类，也可以对数据点/记录聚类(市场细分一般都是对记录聚类)；一次运行即可得到完整的分类序列；不足由于反复计算距离，在样本量太大或变量较多时，分层聚类的运算速度明显较慢(通常，建议样本量不超过200) ;;;;;;; 9.1聚类分析 9.1.1聚类分析定义 9.1.2系统聚类 9.1.3K-均值聚类 9.1.4两步聚类 ; K-均值聚类又叫快速聚类法：首先，确定聚类的类别数（即K），选择n个数值型变量参与聚类分析其次，由分析者指定或由系统自动根据数据结构中心选择k个(聚类的类数）观测值作为聚类的原始中心点第三，逐一计算每一记录到各个类别中心点的距离，把各个记录按照距离最近的原则归入各个类别第四，重新计算每个类中各个变量的均值，以此作为再次次迭代的中心第五，按照新的中心位置重新计算每一记录达到中心的距离，即重复第三、第四步，直到中心的迭代标准达到要求时，聚类过程结束 ; 优点 K均值聚类的速度快于系统聚类，是处理大型数据集聚类的常用方法内存占用小不足只适用于连续型变量；只能对记录进行聚类，而不能对变量聚类；对初始聚类中心有一定的依赖性；由于要事先选定聚类数，所以要尝试多次，以找出最佳聚类 ;;;; 9.1聚类分析 9.1.1聚类分析定义 9.1.2系统聚类 9.1.3K-均值聚类 9.1.4两步聚类 ; 优点可有效地分析大型数据集可处理分类、定量型数据可自动确定聚类数目（根据一定的统计指标“自动地”建议（理论上）最佳的聚类数量）计算过程 Pre-cluster Step：生成聚类特征树，将记录预聚类 Clustering Step：进行层次聚类，根据BIC，AIC准则及相邻两步的最小类间距离比确定最终聚类数相关假定连续型变量不相关，并服从正态分布分类型变量不相关，并服从多项分布比较稳健，不满足上述假设时，有时也可以得到很好的结果 ;;以对数似然函数作为聚类度量时，标准化无影响，可通过“选项”将标准化剔除可通过高级选型调整CF树生成准则;;9.2判别分析 9.2.1判别分析定义 9.2.2常用判别分析方法介绍 9.2.3判别效果评估 9.2.4SPSS实现 9.2.5总结 ;9.2.1 判别分析定义;9.2.1 判别分析定义;9.2.1 判别分析定义;9.2判别分析 9.2.1判别分析定义 9.2.2常用判别分析方法介绍 9.2.3判别效果评估 9.2.4SPSS实现 9.2.5总结 ;9.2.2.1 距离判