spss16.0第二讲.ppt

  1. 1、本文档共54页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
spss16.0第二讲

SPSS入门 第二讲 统计描述 参数估计 报表 作图 大量的数字既繁琐又不直观;需要对数据做人们时间和耐心所允许的简化 可以用 “平均”,“差距”或百分比等来概括大量数字。 由于定性变量主要是计数,比较简单,常用的概括就是比例或百分比。 定量变量、连续变量 可用少量所谓汇总统计量或概括统计量(summary statistic)来描述定量变量的数据。 这些数字是从样本数据得来的,因而也是样本的函数, 任何样本的函数,只要不包含总体的未知参数,都称为统计量(statistic)。 样本的随机性决定统计量的随机性(统计量也是随机变量) 指标体系 集中趋势 离散趋势 分布特征 其他趋势 集中趋势 关于数据中某变量观测值的“中心位置”或者数据分布的中心 位置统计量(location statistic) 位置统计量当然不一定都是描述“中心”了,比如后面要讲的k百分位数(或k%分位数) 描述指标 均数 中位数 中位数(median) 是数据按照大小排列之后位于中间的那个数(如果样本量为奇数),或者中间两个数目的平均(如果样本量为偶数)。 由于中位数不易被极端值影响,所以中位数比均值稳健(robust)。 上下四分位数(或分别称为第一四分位数和第三四分位数,first quantile, third quantile)则分别位于(按大小排列的)数据的上下四分之一的地方。 样本中出现最多的数目,称为众数(mode) 离散趋势 数据中数目的分散程度由尺度统计量(scale statistic)来描述。 尺度统计量是描述数据散布,即描述集中与分散程度或变化(spread或variability)的度量。 一般来说,数据越分散,尺度统计量的值越大。 描述指标 极差(range);就是极大值和极小值之间的差。 两个四分位数之差,称为四分位数极差或四分位间距(interquantile range);它描述了中间半数观测值的散布情况。 方差(variance) 标准得分 一班分数的均值和标准差分别为78.53和9.43,而二班的均值和标准差分别为70.19和7.00。 那么得到90分的一班的张颖是不是比得到82分的二班的刘疏成绩更好呢?怎么比较才能合理呢? 虽然这种均值和标准差不同的数据不能够直接比较,但是可以把它们进行标准化,再比较标准化后的数据。 一个标准化的方法是把某样本原始观测值(亦称得分,score)和该样本均值之差除以该样本的标准差;得到的度量称为标准得分(standard score,又称为z-score)。 在我们的例子中,张颖的标准得分为(90-78.53)/9.43=1.22,而刘疏的标准得分为(82-70.19)/7=1.69。 显然如果两个班级平均水平差不多,刘疏的成绩应该优于张颖的成绩;这是在标准化之前的数据中不易看到的。 变异系数(Coefficient of Variation) 测量尺度相差太大 数据量纲不同 统计描述实例 Explorer Descriptive Frequencies 分类变量 离散变量 有序分类 Ordinal 无序分类 Nominal 频数(绝对数) 百分比 联合描述 统计推断 估计就是根据你拥有的信息来对现实世界进行某种判断。 统计中的估计也不例外,根据样品数据对总体的客观规律性作出合理估计的过程。 从数据得到关于现实世界的结论的过程就叫做统计推断(statistical inference)。 参数估计 假设检验 参数估计 这里介绍两种估计,一种是点估计(point estimation),即用估计量的实现值来近似相应的总体参数。 另一种是区间估计(interval estimation);它是包括估计量在内(有时是以估计量为中心)的一个区间;该区间被认为很可能包含总体参数。 点估计给出一个数字,用起来很方便;而区间估计给出一个区间,说起来留有余地;不像点估计那么绝对。 点估计 最常用的估计量就是我们熟悉的样本均值、样本标准差(s)和(Bernoulli试验的)成功比例(x/n); 人们用它们来分别估计总体均值(m)、总体标准差(s)和成功概率(或总体中的比例)p。这些在前面都已经介绍过,大家也知道如何通过计算机(或公式)来计算它们。 区间估计 中心极限定理 标准误 置信度的理解 区间估计 当描述一个人的体重时,你一般可能不会说这个人是76.35公斤 你会说这个人是七八十公斤,或者是在70公斤到80公斤之间。这个范围就是区间估计的例子。 比如,为了估计某电视节目在观众中的支持率(即总体比例p),某调查结果会显示,该节目的“收视率为90%,误差是±3%,置信度为95%”云云。这种说法意味着下面三点 1. 样本中的支持率为90%,即用样本比例作为对总体比例的点估计 2. 估计

文档评论(0)

yurixiang1314 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档