第5,6讲 SPSS探索与交叉表分析.ppt

  1. 1、本文档共41页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第5,6讲 SPSS探索与交叉表分析

第5讲 探索分析和交叉表分析 主讲人:杨七九 开设单位:信息科学与技术系 描述和频率分析回顾 集中趋势的描述统计量 :均值、中位数、众数 ,代表了数据的集中位置 均值(Mean) :代表中心值或平均值的描述统计量,只适用于间隔尺度变量计算 中位数(Median)是将数据排序后,排在第n/2位置上的案例所对应的数值,由于中位数只是进行排序,因此间隔尺度和顺序尺度变量都可以计算中位数,而名义尺度变量不能计算中位数。 在实际应用中,应该根据数据的特点决定使用哪种集中趋势描述统计量,均值的特点是易受极端值影响,因此如果数据中有特别大或特别小的值时,不推荐使用均值,应该使用中位数作为集中趋势统计量。 离散趋势的描述统计量:全距、样本方差、样本标准差 全距(Range)也称极差,定义是:,是一个比较粗糙的描述离散趋势的描述统计量,通过排序就可以获得,它只能说明数据的分布范围,而不能准确刻画数据离中心的程度,因此实际中不常用。由于全距涉及距离,因此,只适合间隔尺度变量计算。 离散趋势的描述统计量刻画了数据离中心的分散程度,也把此类统计量成为分布尺度(Scale)统计量,尺度越大,就越分散,从另一个角度讲,数据越分散,离中心远的数据越多,中心的代表性就越差,因此,也可以认为离散趋势的描述统计量是刻画集中趋势的代表性的统计量。 分布形态的描述统计量 :偏度和峰 偏度是描述数据分布对称性的统计量,如果数据关于中心(均值)的分布是对称的,此时称为分布对称或偏度为0,如果数据大部分分布在中心左边,小部分分布在中心右边,说明此时中心右边有偏大的值,即右边的值距离中心远,左边值距离中心近,这样右边的少数距离能够“抵消”左边的多数距离。此时,偏度为正,称为正偏或右偏分布,反之称为负偏或左偏分布 峰度大于0,说明数据分布比标准正态分布更陡峭; 峰度小于0,说明数据分布不如标准正态分布陡峭; 等于0,说明数据分布陡峭程度和标准正态分布相当。 值得指出的是,在经济学和金融学中得到的数据,很多都具有“尖峰后尾”的特点,即峰度大于0,偏度也大于0,在处理这类数据时,要特别小心 箱式图,图由箱体部分和线组成, 箱体上沿为数据75%分位数,下沿为数据25%分位数,箱体中间的横线表示50%分位数,即中位数,箱体上方和下方横线之间的细线长度为1.5倍箱体长度,超出横线范围用“●”表示的称为离群点(Outlier),其值在1.5倍箱体长度到3倍箱体长度之间,而超出横线用“*”表示的成为极端值(Extreme Value),其值在3倍箱体长度以上,记号上的数值表示其案例编号。从箱式图可以看出,数据有一些离群点和极端值,呈现右偏分布。 Q-Q图,图中斜线表示正态分布的理论值,而“○”表示数据实际值,当数据确实是正态分布时,数据实际值应该在理论线上或者附近,没有明显的偏离,如果出现明显偏离,就好像图中情况,说明数据不是正态分布。 【上机练习】 交叉表操作过程 1、【分析】|【描述统计】|【交叉表】 2、变量设置 3、精确检验设置 4、统计量设置 5、单元格显示设置 6、格式设置 参数说明 【练习】 表6.1中给出了两所学校的高三毕业生的升学情况,根据此对两所学校学生的升学情况进行交叉表分析,研究两所学校的学生升学率之间有无明显的差异。 表6.2请基于此数据分析客户在年龄和收入上的、在教育和工作年限上的以及在工作年限和居住年限上的联合频数情况,并完成三组变量的独立性检验。 表6.3给出了某地两所中学的毕业生升学情况。根据此对该地两所学校学生的升学情况进行联列表分析,研究两所学校学生的升学率之间有无明显的差别。 应用于联列表的行 应用于联列表的列 用于选入封层变量,单击上一张、下一张可以指定多组分层变量。 输出关于各类别频数统计的复式条形图 选中表示不输出频数统计表格 基于检验统计量的渐进分布计算显著性水平,次方法适用于较大的数据集,当数据较少或者没有明显的分布特征时,可能会不稳定。 对精确性显著性水平的无偏估计,此种方法适用于数据量太大,无法使用其他方法进行计算的情况 由此计算出的显著性水平低于0.5时被认为是显著的,即认为行列变量之间存在一定的相关性 包括Pearson卡方检验、似然比卡方检验等 进行相关性检验,包括行、列变量的Pearson相关系数 基于卡方的相关统计量,其值介于0-1,0表示行列变量之间没有关系,越接近1表示相关性越强 Phi是基于卡方统计量的关联性测量,它是将卡方检验统计量除以样本大小,并取结果的平方根,Cramer是基于卡方统计量的关联性测量 用于反映自由变量预测因变量时的误差缩减比例,取值为1表示用自变量能完全预测因变量,越接近0表示自变量对因变量的预测作用越小 相关性测量,表示当一个变量的值用来预测其它变量的值时,误差比例下降的程度

文档评论(0)

yaocen + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档