- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
北京大学社会学系 数据分析课程讲义 刘爱玉 2005年
第四讲 描述性统计(Descriptives与Explore的应用)
一.Descriptives
Frequencies主要用于数字型或字符型变量的数据汇总,可以求出很多种的统计量
Descriptives过程一般用于数字型变量的数据汇总,汇总时,可以统计出除众数、中位数以外的多种统计量。
(一)应用实例
数据
如何在对话框中进行操作
输出结果
(二)统计量分析
1.Variables框——将要分析的变量放到这个框里
2.Save standardized values as variables
如果选择这个框,将对Variables框中的变量进行标准化并产生相应的Z分值,并作为新的变量保存在数据窗中,新变量的名字是原来的变量名前加z,标准化的计算公式如下:
3.Options对话框
Mean( Grouped Media)
S.E.Mean
StdDEV
Variance
Kurtosis
Skewness
Range
Minimum
Maximum
Sum
Default--------默认值,为均值、标准偏差、最小、最大)
4.Display order 输出顺序
二.Explore分析
探索性分析是在一般描述性分析的基础上,增加有关数据其他特征的文字与图形描述,以便用户对数据进行进一步的分析。
分析方法及解释:
Analyze-----Explore-----对话框出现--------将收入放到Dependent list框----放定距及以上变量,文化程度放到 Factor list框(以文化程度分组对收入进行探索性统计分析)
Statistics对话框
[1]Descriptives 描述性分析,输出均数、中位数、众数、5%修正均数、标准差、方差、标准误、最小值、最大值、全距、四分位全距、峰度系数、峰度系数的标准误、偏度系数、偏度系数的标准误及指定的指数的置信区间。
分析结果是interquartial range
第一个:5750=15000-9250(75%分位上的值-25%分位上的值)(没有上过学)
第二个:8500=13000-4500(小学)
其余类推
[2]M-estimators:作中心趋势的粗略最大似然确定,输出四个不同权重的最大似然确定数。分别是Huber、Andrew、Hampel和Turkey,其中Huber法适用于数据接近正态分布时的情况,另三种则适用于数据有许多异常值时的情况。如果估计量离均数和中位数较远,说明数据中可能存在异常值,这个时候一般用这个估计值代表均数来反映集中趋势比较好。
[3]Outliers输出5个最大值与最小值
[4]Percentiles: 输出第5、10、25、50、75、90、95%位数
Plots
[1]Boxplots箱图
Factor levels together选择这一项,每个因变量一组箱图,是系统的默认方式
Dependents together:每个分组变量水平一组箱图
None无
箱式图中:
中间的黑粗线为中位值(median value),
红色的箱体为四分位数的间距(第三个四分位与第一个四分位),
上下两条细线之间的距离是1.5倍四分位数间距,
线条外的数据是离群值(outlier)或极值(extreme),其中离方框上、下界的距离超过四分位数间距(框体)1.5倍的值,称为离群值,以O表示,
超过3倍的为极值,以﹡表示。
[2] Descriptives
Stem-and-leaf:茎叶图,系统默认状态(这个图分为三个部分:频数、茎和叶,茎是整数部分,叶是小数部分,stem width表示茎宽, 每行的茎和叶组成的数字再乘以茎宽,就得到实际数据的近似值,实际数据中与这个近似值靠近的值的个数即为频数表示的个数。
目前全家月平均毛收入(元) Stem-and-Leaf Plot for
A1= 男
Frequency Stem Leaf
5.00 0 . 00
18.00 0 . 223333333
47.00 0 . 44444444455555555555555
40.00 0 . 6666666666666777777
45.00 0 . 8888888888888888999999
51.00 1 . 0000000000000000000000011
11.00 1 . 22233
28.00 1 . 4455555555555
您可能关注的文档
最近下载
- 江苏省2021-2022学年高二下学期高中合格考试信息技术试题第十四套.docx VIP
- 大连理工大学(盘锦校区)概率论与数理统计课件-第七章M.pptx VIP
- 2019年2月-N0N1三基-核心制度.docx VIP
- kuka机器人培训4-伺服焊枪配置培训.ppt VIP
- 【石油行业标准】SYT 6277-2017 硫化氢环境人身防护规范.pdf VIP
- 绿色建筑国标三星认证管理及措施方案(技术标130页).docx
- 大连理工大学(盘锦校区)概率论与数理统计课件-第六章M.pptx VIP
- 国家开放大学《动物常见病防治》形考任务(1-4)试题及答案解析.pdf VIP
- 北京市海淀区2024-2025学年高二上学期期末数学试题(含答案与解析).pdf VIP
- 新概念英语第二册课文(中英文对照) .pdf VIP
原创力文档


文档评论(0)