- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第三讲用Frequencies做数据汇总-北京大学.doc
第三讲 用Frequencies做数据汇总
从问卷设计、发放、回收、整理、编码以及计算机录入,把原始数据文件转变为SPSS的SAV文件,我们就可以进行数据的汇总分析了。对数据进行汇总的主要目的有两个:
通过数据汇总,统计出各个变量值的频率、频次等,了解变量分布的结构;
通过数据汇总,可以检测到所录数据的真伪,如经过汇总,发现性别汇总表上出现性别的编码值为3,则显然是录入有错误。我们可以以此为线索对其进行纠正
一.数据汇总使用的数据类型
ASCII码数据,即纯文本文件,是在文本编辑器中编辑和存储的,Word带分行符号的文本格式,EDIT命令、WINDOWS中的书写编辑器等,这种数据的扩展名采用·DAT
SPSS系统中生成的数据库*·SAV
数据库数据*·DBF
Epidata生成的数据
二·频次统计及统计量的计算
SPSS-----File----open-----data-----*·SAV-----Analyze-----Descriptives-----
Frequencies-----显示对话框
左边↑↓--------可以寻找需要的变量
右边各个框的含义:
Statistics——统计量
1.Percentile values百分比计算,包括:四分位、10分位与百分位
[1]Quartiles:计算4等分处的百分比,显示25 50 75 处的值
[2] Cut point for 10 equal groups 计算10等分处的百分比,也可以输入一个其他的数字,把个案分成你想要的相等的组,如对收入进行5等分。
[3]Percentile[s]按照指定的百分位数计算频率,第50个Percentile[s] 与中位数相同
Change 改变百分位数的选择
Remove 从框中移走百分位数
Add 将选择的百分位数加以确认
2.Central Tendency(均值、中位值、众数)---根据典型值来估计或预测每个研究对象的数值
[1]Mean---最适合于分析定距变量
简单平均值 均值=
加权平均值 (分组时) 均值= 比较适合于定距、定比变量
[2]Median----最适合于定序变量
也就是第50百分位数上的值,也就是说有50%的观察点落在这个值之下,主要适用于定序变量(中位数),但在分析诸如有极端值的定距变量时,也常常使用中位值。
Md= (N+1)/2(当观察总数为奇数时),居中位置左右两位数的平均值(当观察总数为偶数时)
Md=
cf对应于下限的累积频次或低于中位值点实下限累积频次;
N调查总数
n中位值组的频次
L包含中位数的间距的下限
U包含中位值组的间距的上限
均值受极端值变化的影响,而中位数不, 均值预测定距变量最好,均值一般不用于定类与定序变量。 当然根据分析的需要有的时候也用。 在二分变量中(0,1),均值对这种变量有特殊的解释,如SEX(0,1), 男1, 女0, 则如果均值是40%, 说明编码为1 的男性占40%
样本的中位数从一个样本到另外一个样本有较大的差异,但分布高度倾斜时,中位值比均值好,中位值预测定序变量的效果比较好。
[3]Mode-----预测定类变量的效果最好
众数,为次数出现最多的变量值,主要适用于定类变量,用众数来预测定类变量所犯的错误最小
当变量是定距变量时,可以用以下公式计算
公式:L+ [ f2×W/(f1 + f2)]
f1 众值组下一组次数
f2 众值组上一组次数
W 组距
例:
成绩 组中值 人数 95-100 97.5 3 90-94 92.0 8 85-89 87.0 7 80-84 82.0 6 75-79 77.0 4 70-74 72.0 2 比较精确地求众值,Mode=90+[3×5/(7+3)]=91.5
[4]Sum 求和
3.Dispersion----------离散趋势测量------可以点右键,看统计量的意义
用来测量离散趋势的统计量
[1]异众比 variation ration-------定类变量的离散趋势分析
异众比 =(N-众数)/N, 不同于众值的数在全体数值中所占的比例,用于测量定类变量的离散趋势。异众比越大,说明用众值估计的效果越差,SPSS不给出异众比,但可以计算出来
[2] 分位差----定序变量
第一个:四分互差(Interquartile range):Q= Q3 —Q1 Q越大,说明有50%的个案的分布越是远离中位值,中位值的代表性就越小,以中位值作为估计或预测的效果就越差。如以收入变量为例,四分互差为12000-6000=6000
Statistics
收入总计
N Val
文档评论(0)