- 1、本文档共102页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
【毕业论文】数据分析软件及其应用2011
高级统计分析 1、回归分析 2、聚类分析 3、因子分析 聚类分析介绍 方法依据:“物以类聚,人以群分 ” 方法特征:聚类分析是一种建立分类的多元统计方法,它能够将一批样本(或变量)根据其诸多数据特征,按照在性质上的亲疏程度在没有先知知识的情况下进行自动分类,产生多个分类结果。类内部的个体在特征上具有相似性,不同类间个体特征的差异性较大。 聚类过程中亲疏程度的度量:计算个体间的距离,计算方法因变量类型不同而不同。 定距型变量个体间距离的计算:有7种方法,其中最常用的是欧氏距离(Euclidean distance); 计数变量个体间距离的计算:卡方(Chi-Square measure)距离、Phi方( Phi-Square measure)距离; 二值变量个体间距离的计算:简单匹配系数(Simple Matching)、雅科比系数(Jaccard) 聚类分析想(续) 聚类分析的方法:层次聚类法、K-Means聚类、模糊聚类等 层次聚类法:Q型聚类、R型聚类。 聚类方式有:凝聚方式、分解方式两种。Spss层次聚类采用的是凝聚方式。 个体与小类、小类与小类间“亲疏程度”的度量方法: 最近邻居(Nearest Neighbor)距离 最远邻居(Furthest Neighbor)距离 组内平均连锁(Within-groups-linkage)距离 重心(Centroid clustering)距离 因子分析 因子分析的基本思想:根据相关性大小把原始变量分组,使的同组内的变量之间相关性较高,而不同组变量间的相关性较低。每组变量代表一个基本结构,并用一个不可观测的综合变量来表示,这个基本结构称为公共因子。因子分析的目的是寻求变量的基本结构,简化观测系统,减少变量维数,用少数的变量解释所研究的复杂问题。 因子分析的一般数学模型 因子分析的步骤 第一步,对原始变量进行标准化处理; 第二步,提取因子,确定描述数据所需要的因子数以及计算方法; 第三步,因子旋转,集中于变换因子使之更好解释; 第四步,计算因子得分; 第五步,根据因子的分值作进一步的分析。 因子分析中的几个重要概念 因子负荷:(因子载荷),即因子分析模型中的各因子系数值。他的绝对值越大,表示该因子对当前变量的影响程度越大。 公因子方差比(Communalities):指的是提取公因子后,各变量信息分别被提取的比例,或者说原变量方差中有公因子决定的比例。其取值在0~1之间,其值越大,说明该变量能被因子说明的程度越高。 特征根(Eigenvalue):特可以看做是公因子影响力度的指标,代表引入该因子后可以解释多少元是变量的信息。 因子分析的应用 解决多重共线性问题。 数据简化。 对样本进行分类和综合评价。 * * * * * * * * * * * * 一、建立spss数据文件 打开spss,进入数据输入(Data View)界面; 定义变量与数据编码,其中“name”、 “label”、“ values”三个选择比较重要; 在数据输入模式下,用键盘将数据直接输入,输入前点击View→Value Labels; 保存数据文件,待分析使用。 Spss变量名的定义规则 变量名中不能有空格; 变量名允许有64字节长,首写必须是文字母或以下符号之一:@、#、$,除首写自字符外其他可以是字母、数字、小数点或其他任意非标点符号的字符; 避免“.”、“-”作为变量名结尾。 Spss的变量类型 数值型:标准数值型、带逗号的数值型 、圆点数值型、科学计数法、带美元符号的数值型、自定义类型。 字符型:字符串可以包括数字、字母、特殊字符,最长为32767个字符。 日期型:16种。 变量标签与值标签 变量标签与值标签,用于变量名和变量值的辅助说明。 Variable Labels(变量标签)在统计分析结果中,可以在与变量名相对应的位置显示该变量的标签,或直接以变量标签代替变量名显示,有助于理解和分析输出结果。 Value Labels(变量值标签),分类变量经常需要定义值的标签。由于提高数据录入效率非常有用。 输入数据 输入数据的方法 查看文件信息和变量信息 对数据文件的操作 数据文件的打开与保存; 数据库文件的转换; 编辑数据文件 在单元格中表编辑数据; 插入变量与删除变量; 插入记录与删除记录; 数据的剪贴、复制和粘贴; 撤销操作。 调查数据的前期处理 数据的合并 (复制、粘贴) 数据的审核与修改 数据输入错误的类型:数值定义范围内的错误、数值定义范围外的错误、逻辑错误。 用Recode和Computer命令查找错误。 第二类错误的检查:数据排序: Data→sort ca
您可能关注的文档
- 【办公资料】大学生心理健康教育系列讲座之一.ppt
- 【创新大课堂】2016高考语文(新课标人教版)一轮总复习课件:第四编第二章专题二散文阅读第1节.ppt
- 【医学PPT课件】2型糖尿病防治策略.ppt
- 【医学PPT课件】2型糖尿病.ppt
- 【医学PPT课件】ㄧ位患有高血壓併有糖尿病的居家護理經驗.ppt
- 【医学PPT课件】中医药治疗糖尿病.ppt
- 【创新大课堂】2016高考语文(新课标人教版)一轮总复习课件:第四编第二章专题二散文阅读第5节.ppt
- 【医学PPT课件】中医药治疗糖尿病.ppt.ppt
- 【医学PPT课件】2型糖尿病的联合药物治疗.ppt
- 【医学PPT课件】妊娠合并糖尿病及妊娠糖尿病.ppt
文档评论(0)