第三章 单变量描述统计分析 - 课程中心30.ppt

第三章 单变量描述统计分析 - 课程中心30.ppt

  1. 1、本文档共105页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第三章 单变量描述统计分析 - 课程中心30.ppt

* * * * * * * * * * * * * * * 正态性检验及图示 注:提供了两个正态性检验的,包括Kolmogorov –Smirnov检验和Shapiro-Wilk检验。当样本值小于2000,最好参考后者。 注:检验表明存取款金额在不同组中均可以认为服从正态分布。 * 正态分布的Q-Q图 正态分布的Q-Q图是一种散点图,该图的纵坐标是标准正态分布的分位数,横坐标是样本形成的分位数。要利用该图鉴别样本数据是否近似于正态分布,只需要看图上的点是否近似的在一条直线附近。 * * 注:看图仍显得比较粗糙。 * 正态分布的趋降标准Q-Q图 正态分布的趋降标准Q-Q图反映的是正态分布的理论值与实际观测值之差的散点图。若数据较均匀的分布在直线Y=0上、下,则说明原数据的分布呈正态分布。同时,通过该图可以更细致、更精确的观察原数据是否具备异常值点。 * * Q-Q Plots SPSS中在描述统计的菜单中有专门处理Q-Q图的模块。这里的Q-Q图不仅可以鉴别数据是否服从正态分布,还可以鉴别数据是否服从其他常见分布,如指数分布,同时这里还可以对数据进行某种变换后再判断数据是否服从某种分布。但是,鉴别的原理与正态Q-Q图是一致的。 * * P-P Plots P-P图是以样本的累积概率为横轴,以指定理论分布累积概率为纵轴描绘的散点图。如果待检验样本来自理论分布,则所有的点分布在一条直线附近。 P-P图的作用是用于检验样本是否来自某个指定的理论分布总体。 如果P-P图中各点不呈直线,但有一定规律,可以对变量数据进行转换,使转换后的数据更接近指定分布。 P-P图和Q-Q图的作用完全相同,只是检验方法存在差异。 * * 选项设定 注:第三个选项表示“缺失值作为一个组别输出”。 * * * * * * * * * * * * * * * * * * * * * * 适用于一定类变量、一定距变量的方法 其相关性检验方法是Eta系数(相关比)。该方法的核心思想类似于单因素方差分析。它将定类变量作为“控制变量”(Independent,解释变量),将定距变量当作观测变量(Dependent,被解释变量)。然后分析观测变量的变差中有多少比例是可以由控制变量解释的。 Eta系数的取值在0~1之间,越接近1,表示两变量的相关性越强。由此可知,Eta是属于PRE类的关联量数,基本上用于不对称的关系,但对称关系也可以使用。 * Eta相关比也可以用来测量两个连续变量之间的非直线关系。其做法是将其中的一个变量转换成类别变量,再用Eta来测量关联情形,若Eta值与相关系数之绝对值相差越大,显示两变量之间的关系越是非直线关系。 * 例: 结论:两变量无显著关联性。 * * 4.4 多选项分析 多选项分析主要是针对问卷调查的多选项问题的。本节主要讨论多选项问题结果的保存(多选项问题的分解),以及多选项问题的频数分析。 多选项问题分解的两种办法:第一,多选项二分法;第二,多选项分类法。 频数分析的两步骤:第一,定义多选项变量集;第二,作多选项频数分析或交叉分组下的频数分析。 * Define Sets 指定变量集中的变量是按哪种方法分解的 为变量集命名 表示选中的数值 * Frequencies 注意:Spss规定只要样本在多选项变量集中的某一个变量上取缺失值,分析时就将该样本剔出。 * 279×3=837 * Crosstabs 行变量 列变量 定义变量的取值范围 * 分母为样本数 分母为多选项应答数 * 4.5 比率分析 Ratio 比率分析用于对两变量间变量值比率变化的描述分析,适用于定距变量。当研究者特别关心该比率在不同组间的变动情况时,该过程非常有用。 描述分析基本包括两大类:一类是集中趋势的描述指标,另一类是离散程度描述指标。 * 相对比分母的变量 分组变量 要求在结果窗口中输出分析结果 要求将分析结果存为外部数据 将数据按照分组变量值排序 相对比分子的变量 * 中位数 均数 加权均数 区间估计 平均绝对离差 离散系数 相关价格微分 基于中位数的变异系数 基于均数的变异系数 用于描述相比值落入某一区间所占的比例 自定义具体区间的上、下界 自定义距离中位数的百分比 集中趋势的描述 * 加权均数的算法为组内分子的均数除以分母的均数 离散程度的描述 平均数绝对值偏差:基于中位数的平均绝对离差 价格相关微分=比率均值/加权比率均值 离散系数=基于均值的平均绝对离差/中位数 方差系数=标准差/均值 * 注:集中系数的最后两列的意思是落在某个闭区间的范围内的个数百分比 [(1-x%)×中位数, (1+x%)×中位数], 例如x=20,40 * 4.6 探索性分析 Explore

文档评论(0)

fa159yd + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档