- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
数据分布描述
主讲老师:刘敏
目录
CONTENTS
PART
01
数据分布描述
描述性统计是统计学中的一个重要分支,指运用制表和分类、图形展示以及计算概括性数据等手段,对调查总体中所有变量的相关数据进行统计性描述的方法。这种方法的核心在于通过一系列精心设计的统计量和图形,来全面、准确地揭示数据的内在特征和分布规律。
数据分布描述
数据分布描述
掌握描述性统计指标的计算方法。
能够根据数据的特点选择合适的描述性统计方法,并正确解释分析结果。
树立严谨的科学态度,保证数据分析过程的准确性和可靠性。
某社区开展了居民健康状况调查,共抽样调查了100名居民的血压,年龄(岁)分布及患高血压情况。
数据分布描述
案例导入
表3-1某社区120名居民的年龄及患高血压情况
数据分布描述
年龄
是否患高血压
年龄
是否患高血压
年龄
是否患高血压
年龄
是否患高血压
年龄
是否患高血压
年龄
是否患高血压
42
否
55
否
37
否
58
否
68
是
46
否
53
否
45
否
56
否
36
是
29
否
48
是
48
否
55
是
48
是
57
否
35
否
36
否
41
是
50
否
57
否
50
否
58
否
34
是
64
是
43
是
52
否
42
否
38
是
59
否
33
是
66
否
45
是
54
否
30
否
44
是
60
否
32
否
68
否
43
否
56
是
38
否
47
是
62
否
31
否
70
否
49
是
58
是
65
否
49
否
62
是
30
否
42
否
51
是
60
否
67
否
51
是
63
否
29
否
44
否
53
是
62
否
31
否
53
是
64
否
28
是
46
否
55
否
38
否
46
否
64
否
36
否
48
是
57
是
66
否
44
否
47
否
26
否
50
否
59
否
34
否
50
否
37
否
25
否
52
否
61
否
28
否
52
是
56
否
44
否
54
否
64
否
49
否
54
否
43
否
46
否
38
是
65
否
41
是
43
否
35
否
48
是
33
否
46
否
43
否
45
否
41
否
36
否
57
否
45
否
47
否
40
是
52
否
62
否
47
否
40
否
49
否
39
否
54
否
64
否
分析100名居民的年龄分布情况,绘制频数分布表和直方图。
频数分布是指将一组数据按照其取值或区间进行分类,并统计每一类别中数据出现的次数(即频数)的一种统计方法。它是描述性统计中的重要工具,用于展示数据的分布情况。首先计算极差并确定组数与组距,然后列出组段并归组登记频数以编制频数分布表,最后根据频数分布表绘制频数直方图或多边图以展示数据分布。
数据分布描述
极差又称为全距,通过计算数据集合中的最大值与最小值之差来得到。其计算公式为
最大值和最小值分别为70岁和25岁,极差为45。
一、编制频数分布表
(一)计算极差(Range,R)
将续数据划分为若干区间,以便更清晰地展示数据的分布特征。根据样本含量确定组段数(n),一般设8-15个组段,以确保数据分布的清晰性和分析的合理性。组段数过少可能导致信息丢失,无法准确反映数据的分布特征;而组段数过多则可能使数据过于分散,难以发现规律。
一、编制频数分布表
(二)确定组段和组距
一、编制频数分布表
(二)确定组段和组距
组限是上、下限的统称,一般取整数值或便于计算的数字以利于分组。第一组段下限必须包括最小值,一般取小于或等于最小值的某个数值,本任务最小值为25。
一、编制频数分布表
(三)确定组限
取25作为第一组段的下限,后一个组段的下限为上一个组段的下限加组距,如第二组段下限为25+5=30。各组段需要覆盖整个数据范围,不遗漏,也不重复。不能重叠的意义在于使得每个观察单位能够唯一分到其中一个组段去,所以每一组段均为半闭半开区间,后一组的下限就是前一组的上限。
规范的表示方法为采用半开半闭区间的形式,例如,30也是第一组的上限,第一组为[25,30),则大于等于23,小于30的观察值在此组段;第二个组段为[30,35),以此类推,但是最后一个组段必须用闭区间。
汇总各组段的频数,并计算累计频数、频率和累计频率。频数是指落入该组段的观察值个数;累计频数为各组段频数的累加之和;频率即各组段频数与总观察值个数之比,一般用百分数表示;累计频率指频率自上而下依次累加。
一、编制频数分布表
(四)列频数表
组段(1)
频数ƒ(2)
频率(%)(3)
累计频数(4)
累计频率(%)(5)
25~
6
5.0
6
5.0
30~
9
7.5
15
12.5
35~
13
10.8
28
23.3
40~
17
14.2
45
37
原创力文档


文档评论(0)