- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第二章 统计学基础回顾 2.1 统计数据的整理与描述 2.2 几种重要的概率分布 2.3 多元分布的基本概念 2.4 多元正态分布 2.5 参数估计 2.6 假设检验 思考与练习 2.1 统计数据的整理与描述 统计学是研究数据的方法论学科,统计数据是统计学研究的主要内容。借助统计学方法研究任何实际问题,首先要做的工作是收集数据。收集数据的一般方法是查阅各种统计年鉴和报表,再就是运用某种调查方法获取研究问题的有关数据。抽样调查获取数据的方式在我国方兴未艾。对抽样方法及其应注意的问题有兴趣者可参阅参考文献[5]和[6]。 一、总体与样本 1.总体:在一个统计问题中,通常把所要调查研究的事物及现象的全体称为总体。 2.个体:把组成总体的每个元素(成员)称为个体。 3.总体的容量:一个总体中所含的个体的数量称为总体的容量。 例如:要研究某城市居民的家庭收入状况,那么这个城市所有家庭的收入状况是研究的总体,而每个家庭的收入状况就是个体。 4.抽样:为了推断总体的某些特征,需要从总体中按一定的抽样技术抽取若干个体,将这一抽取过程称为抽样。 5.样本:所抽取的部分个体称为样本。 6.样本容量:样本中所含个体的数量称为样本容量。 例如:研究居民家庭收入时,随机抽取1000户来进行调查,这1000户就是一个样本,样本容量就是1000. 二、统计量 通过抽样或查统计年鉴得到的原始数据,一般是杂乱无章的,很难从中直接看出有价值的东西。因此,需要对原始数据进行整理。画原始数据的散点图、饼图、直方图等方法是直观表达数据的常见方式。统计学中最主要的提取信息方式就是对原始数据进行一定的运算,以算出某些代表性的数字。 用以反映出数据某些方面的特征,这种数字被称为统计量。用统计学语言表述就是:统计量是样本的函数,它不依赖任何未知参数。 均值和方差是最常用的统计量。 均值是对数据集中特征的描述,方差是对数据波动特征的描述。 设是 一组独立的随机样本,则样本均值为: 样本方差为: 样本标准差为: 例如:有两组数据(4,6,8,10,12) (6,7,8,9,10 ) 它们的均值 都是8,说明两组数据都是以8为中心。计算可知,第一组数据的方差比第二组的要大,说明第一组数据相对均值8来说比较分散,而第二组数据相对均值8来说比较集中。 需要注意的是:方差带单位没有意义,标准差带上单位才有实际意义。 三、变异系数 如果两组数据的计量单位相同,且均值一样,可以利用标准差来比较两组数据的离散程度。但是两组数据的计量单位不同或均值不同时,就不能直接比较两组数据的标准差来分析两组数据的离散程度。由此引入变异系数V: 例如:两组数据(4,5,6,7,8)与(40,50,60,70,80)的标准差分别是1.58和15.8,如果仅从标准差来看显然第二组数据分散程度较大。但是由于两组数据的均值不同,分别为6和60,单纯由标准差来判断数据的分散程度就不合适。 当我们计算出两组数据的变异系数时,得到V都是0.26.比较而言,两组数据的分散程度就是相同的了。 四、偏度与峭度 偏度和峭度是描述统计数据分布偏斜程度的统计量。 偏度用偏度系数V1来描述: 式中,S为样本标准差。 偏度系数V1的意义由图2-1可表示出来。 五、累积频数分布 在社会经济调查中,经常得到的数据时频数。例如家庭月收入按等级划分时,我们就会得到每个等级的家庭数,常常将这些数据列在表中或画成直方图。 读者可依收入等级从高到低画出累积频数的直方图。 表2-1是家庭收入累积频数分布表。 在社会经济研究中,洛伦兹曲线是累积频数的典型应用。如果按收入从低到高排列,个收入等级的家庭的累积数(百分比)为横坐标 ,与之相对应的收入的累积(百分比)为纵坐标,所得到的曲线就是西方经济学中著名的洛伦兹曲线。在宏观经济的收入差距研究中,就可运用这一描述方法。 关于累积频数的百分比曲线可拓宽到衡量贫富差距的基尼系数。基尼系数理论在中国当今的宏观经济研究中非常有用。 2.2 几种重要的概率分布 一、正态分布 在经济研究和工商管理中,有许多随机变量的概率分布都可用正态分布来描述。 正态随机变量X的概率密度函数的形式如下: 式中, 为随机变量X的均值; 为随机变量X的方差。 通常对
原创力文档


文档评论(0)