- 1、本文档共17页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
2010级统计学期末复习
第一章:数据与统计学
1、统计学是一门收集、整理、显示和分析统计数据的科学,其目的是探索数据内在的数量规律性。因此统计学也可称为“数据的科学”。
2、为什么统计方法能够通过对数据的大量观察和处理而研究和探索出其内在的数量规律性呢?这是由客观事物本身的特点和统计方法的特性共同决定的。
3、任何数据也都是必然性和偶然性共同作用的结果,是两者作用的对立统一。必然性反映了事物本质的特征和联系,是比较稳定的,因而它决定了事物的内在本质是有规律可循的。偶然性反映了该事物每个表现形式的差异。
4、从统计方法来看,统计学提供了一系列的方法,专门用来收集数据、整理数据、显示数据的特性,进而分析和探索(或推断)出事物总体的数量规律性。
5、描述统计是用图形、表格和概括性的数字对数据进行描述的过程。
推断数据是根据样本信息对总体进行估计、假设检验、预测或其他推断的统计方法。
统计研究过程的起点是数据,终点是探索到客观事物总体内在的数量规律性。
统计数量的质量控制问题是贯穿于统计研究全过程的重要问题。
统计数据误差的原因是不同的,严重程度也不同:
统计调查阶段:可分为非抽样误差和抽样误差。
非抽样误差是由于调查过程中各有关环节工作失误造成的。
抽样误差是利用样本推断总体的时产生的误差。统计误差对于任何一个随机样本来讲都是不可避免的。但它又是可以计量的,并且是可以控制的。在坚持随机原则的条件下,一般来讲,样本量越大,抽样误差就越小。
:统计数据的描述
组距是每一组最大值与最小值之差。
累计次数分配表:P19,表2.9
几种常见的次数曲线:P20,图2.3(偏态曲线!!!!!!)
(参考P21,图2.4 洛伦茨曲线)基尼系数=
如果A=0,则基尼系数=0,表示收入绝对平均;如果B=0,则基尼系数=1,表示收入绝对不平均。基尼系数在0和1之间取值,一般认为,基尼系数若小于0.2,表示分配平均但缺乏效率;基尼系数在0.2—0.4之间是比较适当的,即一个社会既有效率又没有造成极大的分配不公;基尼系数为0.4时,被认为是收入分配不公平的警戒线;基尼系数超过了0.6,则表示可能由于收入分配不公导致社会不稳定。
众数是将数据按大小顺序排队形成次数分配后,在统计分布中具有明显集中趋势点的数值,是数据一般水平代表性的一种。
众数的近似计算公式:Mo≈L+ i
式中:Mo表示众数,L表示众数所在组的下组限;△1表示众数组次数与前一组次数之差(限下累积顺序中先累积的那个组);△2表示众数组次数与后一组次数之差; i 表示众数组的组距。
中位数(Me)是从位置上确定的,个别极端大值或极端小值的变化不影响中位数数值,因此称中位数具有稳健性。
中位数的近似计算公式:Me=L+ (以各组数据均匀分布为假设条件)
式中:表示中位数所在位置;L表示中位数所在组的下组限;Sm-1表示中位数所在组以下各组的累积次数(即向下累积中中位数所在组以上各组的累积次数);fm 表示中位数所在组的次数;i表示中位数所在组的组距。
9、均值就是算数平均数,是数据集中趋势的最主要测度值。(分为普通算数平均数和加权算术平均数)
普通:
加权: ;式中:是次数分配中变量分组的组中值(假定各组数据在组中均匀分配);是各组次数,也称权数;k表示分组中的组数。
从统计思想看,均值反映了一组数据的中心点或代表值,是数据误差互相抵消后的客观事物必然性数量特征的一种反映;从数学公式看,均值也有一些非常重要的数学性质。①数据观察值与均值的离差之和为0,②数据观察值与均值的离差平方和最小,③均值是统计分布的均衡点。
几何平均数在计算社会经济问题的平均发展速度等方面有很重要的作用。几何平均数是n个比率连乘积的n次方根,即
众数、中位数和均值的关系:①均值的位置由偏态分布决定,右偏时分布在最右边;左偏时分布在最左边,②众数Mo总是在曲线的顶端,③中位数Me一直处在均值和众数之间。(注意P32 图2.8)
样本方差的计算公式:
样本分组数据的方差:
样本及样本分组数据的标准差 (略)
离散系数:是用来对两组数据的差异程度进行相对比较的。(离散系数越大,数据之间的差异越大)
离散系数计算公式:(总体)或(样本)
统计表一般由四个主要部分组成,即表头、行标题、列标题和数字资料,此外,必要的时候可以在统计表的下方加上表外附表。P40
箱线图:由一组数据的最大值、最小值、中位数和两个四分位数5个特征值绘制而成,反映原始数据分布的图形。P42-43
课后练习题2 P52;11 P55;13 P55-56
:概率、概率分布和抽样分布
随机变量的数学期望是对随机变量概率分布的一个概括性度量。,数学期望又称均值,它实质上是随机变量所有可能取值的一个加权平均,其权数
文档评论(0)