第三章数据清理与基本统计分析.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
标准差 标准差是指离差平方和平均后的方根,即方差的平方根。用 表示。 方差与标准差的优缺点 优点:反映灵敏,严密确定,计算简单,用样本数据推断总体差异量时,方差与标准差是最好的估计量。 缺点:易受极端数值的影响,有个别数据模糊不清时便无法计算。 (3)四分位差 百分位数:就是次数分布中相对于某个特定百分点的原始分数。百分位数的计算公式如下: Pm——第m百分位数;L——Pm所在组的组下限; f——Pm所在组的次数;Fb——小于L的累计次数。 百分位差 百分位差:是指两个百分位数之差。常用的有: 四分位差 若将从小到大排列的一组数据分成频数相等的四段,第一与第二段的分界点称为第一个四分位数。第三段与第四段的分界点称为第三个四分位数。则四分位差就是第三个四分位数(第75百分位数)与第一个四分位数(第25百分位数)的差。公式为: 极差、百分位差、四分位差 极差:最简单、最易理解的差异量数,但也是最粗糙、最不可靠的值。 级差明显地受取样变动的影响,一般情况下主要用于对数据做预备性检查,了解数据的大概散布范围,以便确定如何进行统计分组。 百分位差与四分位差: 与极差相比,避免了极端数据的影响,但由于没有把全部数据考虑在内,其稳定性会差一些。 另外,它们也不适合代数方法运算,反应不够灵敏,应用不多。 (4)极值 极值是指位于数据总体分布之外的一些极端的数值。极值的产生可能主要有下列原因: (1)极值是真的测量结果; (2)可能是由于数据记录或录入误差造成的; (3)极值数据可能来自其他总体。 确定极值的方法 统计学上通常用四分位数和四分位距作为确定极值的工具,过程如下: (1)首先根据四分位数和四分位距确定数据分布的上、下限: 下限=Q1-.1.5IQR; 上限=Q3+1.5IQR (2)小于下限和大于上限的观察值就是潜在的极值。 (3)确定了潜在的观察值后,可以用直方图、茎叶图等进一步检查这些观察值是否真的是极值。 (三)分布形态测度 偏度:是描述数据分布对称性的测度。 偏度是与正态分布相比较的量,偏度为0表示其数据分布与正态分布偏度相同,数据呈对称分布,此时平均数与中数相等;偏度大于0表示正偏差数值较大,数据呈正偏态(或右偏态),此时平均数大于中数;偏度小于0表示负偏差数值较大,数据呈负偏态(或左偏态),此时平均数小于中数。而偏度的绝对值数值越大表示分布形态的偏差程度越大。 峰度 峰度是描述数据围绕平均数分布的紧密程度,或者分散程度。 峰度 与平均数、标准偏差一样,峰度对极端值的存在非常敏感。统计学上,将数据分布分为三种类型,即常峰态、低峰态和尖峰态。 峰度为0表示其数据分布与正态分布的趋缓程度相同,数据呈常峰态。 峰度小于0表示比正态分布更加平坦,数据呈低峰态,即中间部分的数据较少,相当一部分数据分布在两端极端高或极端低的位置,而且这种分布的偏度指数一般不太高。 峰度大于0表示比正态分布更加陡峭,数据呈尖峰态,即相当一部分数据分布在少数的位置,这个位置可以是靠中间的位置,也可以是靠某一端的位置,其他位置的数据分布明显较少。 分布 平均数 中位数 众数 离散程度 SPSS的基本统计分析 在SPSS的Analyze菜单中包括了一系列统计分析过程。其中Reports和Descriptive Statistics命令项中包括的功能是对单变量的描述统计分析。 Descriptive Statistics包括的统计功能有: Frequencies:频数分析 Descriptives:描述统计量分析 Explore:探索分析 Crosstabs:多维频数分布交叉表(列联表) Reports包括的统计功能有: OLAP Cubes:OLAP报告摘要表 Case Summaries:观测量列表 Report Summaries in Row(Columns):行(列)形式输出报告 频数分析Frequencies 1、了解变量的取值分布情况对整体把握数据的特征是非常有利的。 2、求分类(定类、定序)变量的频数和作Bar图 3、求定距变量(连续变量)的分布情况和作直方图Histogram 4、对连续变量进行分组(recode)后再求频数,如老中青(35, 60)的比例,文化程度(中学、大学及以上)的人数及比例等 5、Analyze + Descriptive Statistics + Frequen

文档评论(0)

beautyeve + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档