第三章 数据清理与基本统计分析.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第三章 基本统计分析 ——数据的审核与整理 数据清理与基本统计分析是进行其他分析的基础和前提。通过基本统计分析,用户可以对分析数据的总体特征有比较准确的把握,从而选择更为深入的分析方法对分析对象进行研究。 数据检查与清理 一是检查每个变量值的合理性(即发现奇异数据与错误数据);二是检查各变量值之间逻辑上的合理性。 SPSS操作步骤:“Analyze”? ”Descriptive Statistics” ?”Frequencies” 基本统计分析 基本统计分析通常有两种形式:一是通过一些特征量数来反映数据的分布情况;二是以统计图表的形式直观呈现数据的分布特征。 本章主要介绍平均数、中位数、众数、方差、百分数、频数等基本概念,以及在SPSS中如何进行计算操作。 数据的描述性测度 中心测度(Central tendency ) 平均数;中位数;众数 变化测度(Dispersion ) 全距;方差与标准差; 四分位数和四分位距;极值 形态测度(Distribution ) 偏度;峰度 (一)中心测度 中心测度是指刻画数据集中趋势的数字,用来描述数据的中心位于何处。 最常用的中心测度为平均数、中位数和众数,其中平均数和中位数只适用于定量数据,而众数既适用于定量数据,也适用于定性(分类)数据。 (1)算术平均数(M) μ——总体算术平均数 ——样本算术平均数 算术平均数的特性 所有观察值关于平均数的偏差和为零,即 对极值非常敏感。 所有观察值关于平均数的偏差平方和最小。 算术平均数的计算 利用原始数据进行计算 利用频数分布表计算 用样本数据推断总体集中量时,算术平均数最接近于总体集中量的真值,它是总体平均数的最好估计值。 在计算方差、标准差、相关系数以及进行统计推断时,都要用到它。 算术平均数的优缺点 优点 ——反应灵敏 ——严密确定 ——简明易懂 ——适合代数运算 ——受抽样变动的 影响较小 缺点 ——易受极端数值 的影响 ——一组数据中某 个数值的大小模 糊不清或不够确 切时无法计算 (2)加权平均数 加权平均数是不同比重数据(或平均数)的平均数。用 表示。 其计算公式有两种形式 (3)中位数 定义:中位数是把按从小到大(从大到小)排列的一组数据一分为二的数值。 中位数的计算: 1. 用原始数据计算(分奇数个数据和偶数个数据) 2. 利用次数分布表计算 利用次数分布表计算中位数 (1)计算公式(由小向大计算) 表示中位数所在组的下限; N表示总频数; 中位数所在组的频数; 表示小于中位数所在组下限的频数综合。 中位数的优缺点与应用 优点:不易受极端值影响 缺点:不适合代数计算 应用条件: 一组数据中有特大或特小两极端数值时; 一组数据中两端数据或个别数据不确切、不清楚时; 当需要快速估计一组数据的代表值时; 数据资料属于等级性质时。 (4)众数 众数的概念 理论众数是指与频数分布曲线最高点相对应的横坐标上的一点。 粗略众数是指一组数据中频数出现最多的那个数。 众数的计算方法 (1)用观察法直接寻找众数 在频数分布表中,频数最多一组的组中值就是粗略众数。当两个相邻的组的频数都是最多时,那么两分组的分组点就是众数。 (2)皮尔逊的经验法 当频数分布呈正态或接近正态时,皮尔逊发现众数近似地等于3倍的中位数减去2倍的算术平均数。 众数的适用情况 当需要快速而又粗略地找出一组数据的代表值时。 当需要利用算术平均值、中位数、众数三者关系来粗略判断频数分布的形态时。 利用众数帮助分析解释一组次数分布是否确实具有两个次数最多的集中点时。 常用中心测度概括 (二)变化测度 变化测度是描述一组数据的变化程度或分散程度的数值。常用变化测度包括: (1)全距(全距=最高分-最低分) (2)方差与标准偏差 (3)四分位差 (4)极值 (2)平均差、方差与标准差 平均差(MD):就是每一个数据与该组数据的中位数(或算术平均数)离差的绝对值的算术平均数。 平均差的优缺点 与极差相比,平均差是利用全部数据信息计算的,意义明确,计算容易,较好地度量了次数分布的离散程度。但计算要用到绝对值,使它的应用大大受到限制

文档评论(0)

光光文挡 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档