- 1、本文档共39页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
[经济学]lec4 数据整理续
数据整理与数据分组(续)
第四讲
大纲
数值型变量的分组
次数分配的图示
累积次数分配
Excel图表制作
数值型变量的分组
形成变量的次数分配
用EXCEL进行变量次数分配的编制
前提:排序、确定组距和每组的上下限
利用直方图工具
运用频数函数frequency
Excel中的排序和筛选
等组距分组与不等距分组
等距分组
各组频数的分布不受组距大小的影响
可直接根据绝对频数来观察频数分布的特征
组数的确定:k = min{sqrt(N), 10*ln(N)/ln(10)}
不等距分组
各组频数的分布受组距大小不同的影响
各组绝对频数的多少不能反映频数分布的实际状况
需要用频数密度反映频数分布的实际状况
直方图工具
输入每组的上限
选择“工具 – 数据分析 – 直方图”
完成对话框中的选择
在“输入区域”键入所有待分组数据的代码区域;
在“接受区域”键入作为分组依据的代码区域;
如果在上述两个区域的选择中,包含了标志名,则需要选择标志;反之,则不需要在标识复选框内打勾。
在输出选项中,选择“输出区域”,并键入你所选择的次数分布表的输出区域。
然后,选择确定
分组的结果中,上限值包含在组内
练习
11-4 data
猪肉价格
学生成绩
预算收入:河南省06年县市级的预算收入
频数函数frequency
是一个组函数
与普通函数的操作有所不同
使用方法
输入每组的上限
选中输出的单元格区域
输入公式:=frequency(待分组的数据区域,组上限区域)
按ctrl + shift + enter
次数分配的图示
图示能够突出地显示出只靠阅读数据不易看出的重要特征和数量关系
相等组距的次数分配图示
条形图
次数多边形
曲线图
不等组距的次数分配图示
直方图
条形图
等距分组
次数分配的条形图;频率分配的条形图
以条形的高度表示次数或频率的高低
某班期中成绩分布
次数多边形
连接各组组中值与次数相交的点
曲线图
对多边形进行修匀,也称次数曲线
运用次数多边形图和曲线图可以将两个不同次数分配资料进行直观比较
常见的次数曲线
正态分布曲线,偏态曲线,J形曲线和U形曲线
许多现象的总体分布都趋于正态分布
U 形曲线
J形曲线
如人口按年龄死亡率的分布,在人口总体中,幼儿和老年人死亡率高,而中青年死亡率低
自然界某一物种在理想条件下种群数量增长的形式,如果以时间做横坐标,种群数量做纵坐标画出来的曲线表示,曲线大致成J型曲线
直方图
不等组距的次数分配图示
纵轴:单位组距次数,即频数密度= 频数/组距,或者是频率密度 = 频率/组距
不等组距的次数分配图是用面积而不是用高度来表示各组的次数
高度表示的是频数密度或频率密度
某地区人口的年龄分布
年龄(岁)
人口数(万人)
人数密度
0~1
2
2
1~7
12.2
2.03
7~18
24
2.18
18~25
14.8
2.11
25~55
34.2
1.14
55以上
16.3
0.54
人数密度=人口数/组距
人数密度比人口数更精确地反映人口结构
人口分布直方图
每个矩形的面积 = 该组组距×频数密度
= 该组组距×(该组次数/组距)= 该组次数
人口密度
(万人/一年)
理解直方图
对于不等组距,如果用高度表示次数/频率,会错误认识总体的分布情况
观察25-55年龄段的人口分布
频数与频数密度的结果很不相同
频数很高,密度较低
让读者误以为该地区的人口分布集中在25-55年龄段
实际上,0-25岁占有更大、更显著的比重
直方图是面积而不是用高度来表示次数
在直方图中,分布次数在每个小区间上被假定为均匀分布的
对于不等组距的频数密度分配图,所有距形面积之和 = 总次数
对于不等组距的频率密度分配图,所有矩形面积之和 = 1
在研究次数分配图时,不论是等组距还是不等组距的情形,都要把纵坐标与密度的概念联系在一起,而不要首先理解为次数
密度曲线
对直方图进行折线和修匀处理,可以得到密度曲线
思考
当f (x)为频数密度函数时,请你写出总次数的表达式,以及[C,D]之间次数分配的表达式。
当f (x)为频率密度函数时,请你解释定积分
累积次数分配
用于回答这样的问题:大于某值或小于某值的次数或频率共有多少?
较小(大)制累积:小(大)于某值的累计次数分配,向上(下)累计
最常用的是较小制累积
累积次数 F(x)=F(X x)
可以得到累积分布曲线
累积分布曲线的导数就是密度曲线:
例:某市商店月销售额分布
销售额
(百万元)
商店数
频率(%)
累计次数
累计频率
向上累计
向下累计
向上累计
向下累计
5以下
4
8
4
50
8
100
5~10
10
20
14
46
28
92
文档评论(0)