SPSS回归分析应用PPT.ppt

  1. 1、本文档共379页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
对个案的聚类分析类似于判别分析,都是将一些观察个案进行分类。聚类分析时,个案所属的群组特点还未知。也就是说,在聚类分析之前,研究者还不知道独立观察组可以分成多少个类,类的特点也无所得知。 变量的聚类分析类似于因素分析。两者都可用于辨别变量的相关组别。不同在于,因素分析在合并变量的时候,是同时考虑所有变量之间的关系;而变量的聚类分析,则采用层次式的判别方式,根据个别变量之间的亲疏程度逐次进行聚类。 聚类分析的方法,主要有两种,一种是“快速聚类分析方法”(K-Means Cluster Analy- sis),另一种是“层次聚类分析方法”(Hierarchical Cluster Analysis)。如果观察值的个数多或文件非常庞大(通常观察值在200个以上),则宜采用快速聚类分析方法。因为观察值数目巨大,层次聚类分析的两种判别图形会过于分散,不易解释。 判别分析是一种有效的对个案进行分类分析的方法。和聚类分析不同的是,判别分析时,组别的特征已知。如银行为了对贷款进行管理,需要预测哪些类型的客户可能不会按时归还贷款。已知过去几年中,900个客户的贷款归还信誉度,据此可以将客户分成两组:可靠客户和不可靠客户。 再通过收集客户的一些资料,如年龄、工资收入、教育程度、存款等,将这些资料作为自变量。通过判别分析,建立判别函数。那么,如果有150个新的客户提交贷款请求,就可以利用创建好的判别函数,对新的客户进行分析,从而判断新的客户是属于可靠客户类,还是不可靠客户类。 8.2 层次聚类分析中的Q型聚类 层次聚类分析是根据观察值或变量之间的亲疏程度,将最相似的对象结合在一起,以逐次聚合的方式(Agglomerative Clustering),它将观察值分类,直到最后所有样本都聚成一类。 层次聚类分析有两种形式,一种是对样本(个案)进行分类,称为Q型聚类,它使具有共同特点的样本聚齐在一起,以便对不同类的样本进行分析;另一种是对研究对象的观察变量进行分类,称为R型聚类。它使具有共同特征的变量聚在一起,以便从不同类中分别选出具有代表性的变量作分析,从而减少分析变量的个数。 本节讲述Q型聚类的原理和SPSS的实现过程,下一节将讲述R型聚类的实现过程。 定义:层次聚类分析中的Q型聚类,它使具有共同特点的样本聚齐在一起,以便对不同类的样本进行分析。 8.2.1 统计学上的定义和计算公式 层次聚类分析中,测量样本之间的亲疏程度是关键。聚类的时候会涉及到两种类型亲疏程度的计算:一种是样本数据之间的亲疏程度,一种是样本数据与小类、小类与小类之间的亲疏程度。下面讲述这两种类型亲疏程度的计算方法和公式。 计算公式如下。 样本数据之间的亲疏程度主要通过样本之间的距离、样本间的相关系数来度量。SPSS根据变量数据类型的不同,采用不同的测定亲疏程度的方法。 样本若有k个变量,则可以将样本看成是一个k维的空间的一个点,样本和样本之间的距离就是k维空间点和点之间的距离,这反映了样本之间的亲疏程度。聚类时,距离相近的样本属于一个类,距离远的样本属于不同类。 1.连续变量的样本距离测量方法 (1)欧氏距离(Euclidean Distance) 两个样本之间的欧氏距离是样本各个变量值之差的平方和的平方根,计算公式为 (2)欧氏距离平方(Squared Euclidean Distance) 两个样本之间的欧氏距离平方是各样本每个变量值之差的平方和,计算公式为 6.Hosmer和Lemeshow的拟合优度检验统计量(Hosmer and Lemeshow's Goodness of Fit Test Statistic) 与一般拟合优度检验不同,Hosmer和Lemeshow的拟合优度检验通常把样本数据根据预测概率分为10组,然后根据观测频数和期望频数构造卡方统计量(即Hosmer和Lemeshow的拟合优度检验统计量,简称H-L拟合优度检验统计量),最后根据自由度为8的卡方分布计算其值并对Logistic模型进行检验。 如果该p值小于给定的显著性水平(如=0.05),则拒绝因变量的观测值与模型预测值不存在差异的零假设,表明模型的预测值与观测值存在显著差异。如果值大于,我们没有充分的理由拒绝零假设,表明在可接受的水平上模型的估计拟合了数据。 7.Wald统计量 Wald统计量用于判断一个变量是否应该包含在模型中,其检验步骤如下。 (1)提出假设。 (2)构造Wald统计量。 (3)作出统计判断。 ? 研究问题 在一次关于某城镇居民上下班使用交通工具的社会调查中,因变量y =1表

文档评论(0)

djdjix + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档