spss16.0第二讲.ppt

下载文档 降价啦

9
0
约6.97千字
约 54页
2018-03-02 发布于江西
举报
版权申诉
保障服务

spss16.0第二讲.ppt

1、本文档共54页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

spss16.0第二讲

SPSS入门第二讲统计描述参数估计报表作图大量的数字既繁琐又不直观；需要对数据做人们时间和耐心所允许的简化可以用 “平均”，“差距”或百分比等来概括大量数字。由于定性变量主要是计数，比较简单，常用的概括就是比例或百分比。定量变量、连续变量可用少量所谓汇总统计量或概括统计量(summary statistic)来描述定量变量的数据。这些数字是从样本数据得来的，因而也是样本的函数，任何样本的函数，只要不包含总体的未知参数，都称为统计量(statistic)。样本的随机性决定统计量的随机性（统计量也是随机变量）指标体系集中趋势离散趋势分布特征其他趋势集中趋势关于数据中某变量观测值的“中心位置”或者数据分布的中心位置统计量(location statistic) 位置统计量当然不一定都是描述“中心”了，比如后面要讲的k百分位数（或k％分位数）描述指标均数中位数中位数(median) 是数据按照大小排列之后位于中间的那个数(如果样本量为奇数)，或者中间两个数目的平均(如果样本量为偶数)。由于中位数不易被极端值影响，所以中位数比均值稳健(robust)。上下四分位数（或分别称为第一四分位数和第三四分位数，first quantile, third quantile）则分别位于（按大小排列的）数据的上下四分之一的地方。样本中出现最多的数目，称为众数(mode) 离散趋势数据中数目的分散程度由尺度统计量（scale statistic）来描述。尺度统计量是描述数据散布，即描述集中与分散程度或变化（spread或variability）的度量。一般来说，数据越分散，尺度统计量的值越大。描述指标极差(range)；就是极大值和极小值之间的差。两个四分位数之差，称为四分位数极差或四分位间距(interquantile range)；它描述了中间半数观测值的散布情况。方差(variance) 标准得分一班分数的均值和标准差分别为78.53和9.43，而二班的均值和标准差分别为70.19和7.00。那么得到90分的一班的张颖是不是比得到82分的二班的刘疏成绩更好呢？怎么比较才能合理呢？虽然这种均值和标准差不同的数据不能够直接比较，但是可以把它们进行标准化，再比较标准化后的数据。一个标准化的方法是把某样本原始观测值（亦称得分，score）和该样本均值之差除以该样本的标准差；得到的度量称为标准得分(standard score，又称为z-score)。在我们的例子中，张颖的标准得分为(90-78.53)/9.43＝1.22，而刘疏的标准得分为(82-70.19)/7＝1.69。显然如果两个班级平均水平差不多，刘疏的成绩应该优于张颖的成绩；这是在标准化之前的数据中不易看到的。变异系数（Coefficient of Variation）测量尺度相差太大数据量纲不同统计描述实例 Explorer Descriptive Frequencies 分类变量离散变量有序分类 Ordinal 无序分类 Nominal 频数(绝对数) 百分比联合描述统计推断估计就是根据你拥有的信息来对现实世界进行某种判断。统计中的估计也不例外，根据样品数据对总体的客观规律性作出合理估计的过程。从数据得到关于现实世界的结论的过程就叫做统计推断(statistical inference)。参数估计假设检验参数估计这里介绍两种估计，一种是点估计(point estimation)，即用估计量的实现值来近似相应的总体参数。另一种是区间估计(interval estimation)；它是包括估计量在内（有时是以估计量为中心）的一个区间；该区间被认为很可能包含总体参数。点估计给出一个数字，用起来很方便；而区间估计给出一个区间，说起来留有余地；不像点估计那么绝对。点估计最常用的估计量就是我们熟悉的样本均值、样本标准差(s)和(Bernoulli试验的)成功比例(x/n)；人们用它们来分别估计总体均值(m)、总体标准差(s)和成功概率(或总体中的比例)p。这些在前面都已经介绍过，大家也知道如何通过计算机（或公式）来计算它们。区间估计中心极限定理标准误置信度的理解区间估计当描述一个人的体重时，你一般可能不会说这个人是76.35公斤你会说这个人是七八十公斤，或者是在70公斤到80公斤之间。这个范围就是区间估计的例子。比如，为了估计某电视节目在观众中的支持率（即总体比例p），某调查结果会显示，该节目的“收视率为90%，误差是±3%，置信度为95%”云云。这种说法意味着下面三点 1. 样本中的支持率为90%，即用样本比例作为对总体比例的点估计 2. 估计