- 1、本文档共39页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
现代统计分析方法与应用第章:统计学基础回顾.doc
第2章 统计学基础回顾
1、统计数据的整理与描述
2、几种重要的概率分布
3、多元分布的基本概念
4、多元正态分布
5、参数估计
6、假设检验
第一节 统计数据的整理与描述
一、总体与样本
在一个统计问题中,通常把所要调查研究的事物或现象的全体称为总体,而把组成总体的每个元素称为个体,一个总体中所含的个体数量称为总体的容量。
从总体中按一定的抽样技术抽取若干个体,将这一过程称为抽样。所抽取的部分个体称为样本,样本中所含个体的数量称为样本容量。
对原始数据进行一定的运算,以算出某些代表性的数字,涌以反映出数据某些方面的特征,这种数字被称为统计量
二、统计量
均值和方差就是最重要的常用统计量。
设x1、x2、、xn是一组独立的随机样本,则:样本均值为:
样本均值为:
样本方差和标准差
(simple variance and standard deviation)
未分组数据:
组距分组数据:
未分组数据:
组距分组数据:
方差的计算公式
标准差的计算公式
注意:
样本方差用自由度n-1去除!
(例题分析)
55400
160
270
320
270
0
170
200
240
160
250
—
40
30
20
10
0
10
20
30
40
50
120
—
合计
4
9
16
27
20
17
10
8
4
5
145
155
165
175
185
195
205
215
225
235
140—150
150—160
160—170
170—180
180—190
190—200
200—210
210—220
220—230
230—240
频数(fi)
组中值(Mi)
按销售量分组
某电脑公司销售量数据离差计算表
含义:每一天的销售量与平均数相比,平均相差211.58台
三、变异系数
四、偏度
1、统计学家Pearson于1895年首次提出
2、数据分布偏斜程度的测度:
⑴偏态系数=0为对称分布
⑵偏态系数gt;0为左偏分布,数据的分布具有一个较长的右尾;
⑶偏态系数lt;0为右偏分布,数据的分布具有一个较长的左尾;
此值大于其标准误的两倍,说明数据的分布不是对称的,也就不是正态的。
⑴根据原始数据计算
⑵根据分组数据计算
3、偏态系数 (skewness coefficient)
(例题分析)7290000
2560000
270000
0
170000
1600000
648000031250000
540000
-256000
-243000
-128000
-27000
0
17000
80000
216000
256000
625000
120
—
合计
4
9
16
27
20
17
10
8
4
5
145
155
165
175
185
195
205
215
225
235
140—150
150—160
160—170
170—180
180—190
190—200
200—210
210—220
220—230
230—240
频数 fi
组中值(Mi)
按销售量份组(台)
某电脑公司销售量偏态及峰度计算表
结论:偏态系数为正值,但与0的差异不大,说明电脑销售量为轻微左偏分布,即销售量较少的天数占据多数,而销售量较多的天数则占少数
按销售量分组(台)
结论:1. 为左偏分布
2. 峰态略扁
140
150
210
某电脑公司销售量分布的直方图
190
200
180
160
170
频
数
(天)
25
20
15
10
5
30
220
230
240
1、统计学家Pearson于1905年首次提出
2、数据分布扁平程度的测度
⑴峰态系数=0扁平峰度适中
⑵峰态系数lt;0为扁平分布
⑶峰态系数gt;0为尖峰分布
五、峰态
3、峰态系数 (kurtosis coefficient)
⑴根据原始数据计算
⑵根据分组数据计算
结论:峰态系数为负值,但与0的差异不大,说明电脑销售量为轻微扁平分布
偏态与峰态分布的形状
扁平分布
尖峰分布
偏态
峰态
右偏分布
左偏分布
与标准正态分布比较!
六、累积频数分布
在社会经济调查中,经常得到的数据是频数,并将其画成直方图,同时也可以画出累积频数的直方图。
如家庭月收入按等级数据如下表:
800
1500
2000
2300
800
700
500
300
5000-6000
6000-7000
7000-8000
8000-9000
累积频数
频数
家庭数
收入等级(元)
洛伦茨(M.E.Lorentz)曲线是累积频数的典型应用。为了研究国民收
文档评论(0)