- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
SPSS Statistics 培训(三);LUNCH;SPSS Statistics 课程安排;SPSS Statistics 课程安排;SPSS Statistics 课程安排;SPSS Statistics 课程安排;7;
9.1聚类分析
9.1.1聚类分析定义
9.1.2系统聚类
9.1.3K-均值聚类
9.1.4两步聚类
;
俗语说,物以类聚、人以群分
当有一个分类指标时,分类比较容易
但是多个指标时,进行分类就不是很容易了!
例如,对中国的区县进行分类:
自然条件:降水、土地、日照、湿度等
经济指标:收入水平、教育程度、医疗条件、基础设施等
平均的方法?
容易忽视相对重要程度的问题
要进行多元分类-聚类分析
;一种探索性的数据分析技术
基本目标:在数据中寻找某种“自然的”分组结构
应用举例
细分市场
消费行为划分
设计抽样方案
;聚类分析就是要找出具有相似程度的点或类聚为一类
如何衡量这个“相似程度”?
根据距离来确定
“距离”含义很广:如欧式距离,马氏距离…,相似系数
;根据分析对象:
R型聚类-对变量(指标)进行聚类
Q型聚类-对观测对象(个体、样品)进行聚类
根据方法:
层次聚类(Hierarchical Clustering)
非层次聚类
K-均值聚类
两步聚类
注:没有什么聚类方法,具有绝对优势
;
9.1聚类分析
9.1.1聚类分析定义
9.1.2系统聚类
9.1.3K-均值聚类
9.1.4两步聚类
;9.1.2 层次聚类;层次聚类方法可应用多种距离衡量个体/变量的相似性
利用哪种距离聚类取决于:
所分析的数据类型
哪种距离对于聚类最具有解释意义
类之间的距离定义包括:
最短距离法-Nearest Neighbor( Single Linkage)
最长距离法-Furthest Neighbor (Complete Linkage)
重心法-Centroid Clustering
组间(类)平均法-Between-groups Linkage
离差平方和法-Ward’s Method
此外还有中位数距离法(Median Clustering)、类内平均法(Within-Groups Linkage)等
;优点
聚类变量可以是分类或连续型变量;
既可以对变量聚类,也可以对数据点/记录聚类(市场细分一般都是对记录聚类);
一次运行即可得到完整的分类序列;
不足
由于反复计算距离,在样本量太大或变量较多时,分层聚类的运算速度明显较慢(通常,建议样本量不超过200)
;;;;;;;
9.1聚类分析
9.1.1聚类分析定义
9.1.2系统聚类
9.1.3K-均值聚类
9.1.4两步聚类
;
K-均值聚类又叫快速聚类法:
首先,确定聚类的类别数(即K),选择n个数值型变量参与聚类分析
其次,由分析者指定或由系统自动根据数据结构中心选择k个(聚类的类数)观测值作为聚类的原始中心点
第三,逐一计算每一记录到各个类别中心点的距离,把各个记录按照距离最近的原则归入各个类别
第四,重新计算每个类中各个变量的均值,以此作为再次次迭代的中心
第五,按照新的中心位置重新计算每一记录达到中心的距离,即重复第三、第四步,直到中心的迭代标准达到要求时,聚类过程结束
;
优点
K均值聚类的速度快于系统聚类,是处理大型数据集聚类的常用方法
内存占用小
不足
只适用于连续型变量;
只能对记录进行聚类,而不能对变量聚类;
对初始聚类中心有一定的依赖性;
由于要事先选定聚类数,所以要尝试多次,以找出最佳聚类
;;;;
9.1聚类分析
9.1.1聚类分析定义
9.1.2系统聚类
9.1.3K-均值聚类
9.1.4两步聚类
;
优点
可有效地分析大型数据集
可处理分类、定量型数据
可自动确定聚类数目(根据一定的统计指标“自动地”建议(理论上)最佳的聚类数量)
计算过程
Pre-cluster Step:生成聚类特征树,将记录预聚类
Clustering Step:进行层次聚类,根据BIC,AIC准则及相邻两步的最小类间距离比确定最终聚类数
相关假定
连续型变量不相关,并服从正态分布
分类型变量不相关,并服从多项分布
比较稳健,不满足上述假设时,有时也可以得到很好的结果
;;以对数似然函数作为聚类度量时,标准化无影响,可通过“选项”将标准化剔除
可通过高级选型调整CF树生成准则;;9.2判别分析
9.2.1判别分析定义
9.2.2常用判别分析方法介绍
9.2.3判别效果评估
9.2.4SPSS实现
9.2.5总结
;9.2.1 判别分析定义;9.2.1 判别分析定义;9.2.1 判别分析定义;9.2判别分析
9.2.1判别分析定义
9.2.2常用判别分析方法介绍
9.2.3判别效果评估
9.2.4SPSS实现
9.2.5总结
;9.2.2.1 距离判
文档评论(0)