- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第二章 单变量统计描述分析
第一节 单变量统计描述基本技术
变量的计量尺度/层次定类变量2、定序变量
3、定距变量4、定比变量
定类 定序 定距 定比 =,≠ √ √ √ √ , √ √ √ +,- √ √ ×,÷ √ 1、社会学研究中,能够满足定距而不能同时满足定比要求的变量不多。如智商,因为智商0分只有相对的意义,0分不等于没有智商,且0值不固定。当前社会统计方法很少要求达到定比层测,所以只介绍前三种层次变量。
2、在社会学研究当中,有些变量的层次是不统一可变的,可用定序层次也可用定距层次,根据研究需要。高层次变量可以降低层次来使用。一般来说,测量层次越高越好,数学特性就越多,统计分析就越方便,能了解资料的程度就越深入。
二、基本技术
1、次数分布(定类)
次数分布可简化资料,但不能比较样本,因为样本量不同。
2、比、比例和比率某一某些事件发生的频率。
3、累加次数和累加百分比(定序和定距)
组限:上限和下限。组距:上限和下限之差。组中值:上限和下限的平均数。
收入 次数 1000-1999元 50 2000-3999元 60 4000-7999元 30 8000元以上 10 如何分组?要考虑几个问题:1、组数太少会掩盖变量变动时频次的变化。组数太多会是每组内频次过少,增加偶然因素,使各组高度参差不齐,看不出规律。2、等距分组和不等距分组。通常用等距分组,但有时不等距分组能更好反映现象本质,如收入1000元和2000元的职工生活水平差距较大,而5000和6000元之间差距较小。
5、统计图
饼图:多用于定类变量,因为表示变量取值在总体中占的比例,而不管取值的排序。
条形图:用长条的高度表示变量类别的次数或百分比,宽度无意义,一般画成等宽长条,用于定类变量和定序变量。
直方图:仅用于定距变量。以长条面积表示频次或相对频次,条形高度表示频次密度(单位组距包含的频次)或相对频次密度,宽度是组距。为何用频次密度而非频次作为条形高度?因为非等距分组情况下,频次作为条形高度会产生错误,每一组的相对比例不一致。例如:
初婚年龄组(岁) 频次(人) 26-27 30 40-50 35 根据频次来比较,得出错误结论:40-50岁结婚的人比26-27岁结婚的人多。
频次密度=频次/组距;相对频次密度=相对频次/组距
30人/27-26=30(人/岁) 35人/50-40=3.5(人/岁)
可见,26-27岁结婚的频次密度远大于40-50岁结婚的频次密度。
折线图:如果用直线联结直方图中条形顶端的中点,则得折线图。
组距减小,线条越平滑,最终成为曲线。社会学研究常见曲线如J形曲线、U形曲线、峰状曲线(单峰、双峰、多峰)、对称和不对称曲线(正态和偏态、右偏/正向偏和左偏/负向偏)。以正态、单峰图形最为常见。
第二节 集中趋势测量法
一、众数(定类变量)
中位数(定序变量)Md
1、根据原始资料求中位数三、均值(定距变量和定比变量)
1、根据原始资料求
2、根据频次求平均数= =
3、用分组资料求
四、众数、中位数和均值的关系
年度 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 n 8.1 7.7 7.4 6.7 6.4 6.0 6.0 6.5 6.0 6.1 计算以下年间的平均人口自然增长率:
1)1990-1993年的前四年间(7.5%)
2)1994-1999年的后六年间(6.2%)
3)1990-1999年十年间(6.7%)
4)如果原始数据丢失,只知道前四年和后六年的平均增长率,能否计算出10年间的平均增长率?如何计算?(7.5%×4+6.2%×6)/10=6.7%
第三节 离散趋势测量法
一、极差和内距
1、极差2、内距
组限 相对频率 累计频率 150-160 20% 20% 160-170 48% 68% 170-180 32% 100% Q25=159.5+10(25-20)/48=160.54
Q75=169.5+10(75-68)/32=171.69
Q75 -Q25=171.69-160.54=11.15
二、∑(X-)2
公式3:均方差MSD=1/n∑(X-)2f(频次表),如果分组资料,X为每一观测值的中点。
三、方差(Variance)标准差(Standard Deviation)∑(X-X)2
公式5:S2=(1/n-1)∑(X-X)2f(频次资料)
方差的平方根=标准差S。通过取平方根,标准差的单位就和原始数据的单位一致了。
方差和标准差反映的是数据对其平均值的离散程度,因此标准差/方差较小的分布一定比较集中在均值附近,反之比较离散。
举例计算:
身高数据 S的计算(取X平均值的近似值
文档评论(0)