连续性变量的统计描述与参数估计剖析.pptVIP

连续性变量的统计描述与参数估计剖析.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第5章 连续性变量的统计描述与参数估计 连续变量的统计描述概述 1 统计描述中的可用工具 (1)各种初步汇总描述方法 频数、百分位数。 (2)各种统计描述指标 均值、标准差、四分位数间距。 (3)统计表 (4)统计图 5.1 连续变量的统计描述指标体系 2集中趋势的的描述指标 1 算术平均 算术平均(Arithmetic Mean)是最常用的描述数据分布的集中趋势的统计量。总体均数(Population Mean)用希腊字母 表示,样本均数常用 表示。 一、算术平均数的定义和性质 2 中位数 中位数(Median)是将总体各单位的标志值按大小顺序排列,处于中间位置的那个标志。 一、中位数的定义 对于未分组的原始资料,首先必须将标志值按大小顺序。设排序结果为: 则中位数就可以按下列方式确定: 二、中位数的适用范围 3其他集中趋势指标 一、截尾均数 由于均数较易受极端值的影响,因此可以考虑将数据排序后,按照一定的比例去掉最两端的数据,只是用中部的数据来求均数。如果截尾均数和原均数相差不大,则说明数据不存在极端值,或者两侧极端值的影响正好抵消;反之,则说明数据中有极端值,此时截尾均数更好地反映数据的集中趋势。 常用的截尾均数有5%截尾均数,即两端各去掉5%的数据。 3 离散趋势的描述指标 1全距(Range) 又称为极差,是一组数据中最大值(Maximun)与最小值(Minimum)之差。 极差反映的是变量分布的差异范围或离散程度,在总体中,任何两个标志值之差都不可能超过极差。 极差存在两点不足: 一是它仅仅取决于两个极端值的水平,不能反映其间的变量分布情况,提供的信息太少。 二是它容易受个别极端值的影响,不符合稳健型的要求。 2 方差和标准差 一、方差(Variance)和标准差(Standard Deviation)的定义 将离均差平方和(Sum of Squares of Deviation from Mean,SS)除以观察例数N,就得到方差: 方差越大,数据分布离散程度越大。 对于样本数据而言,方差的计算公式为: 将方差开方,就得到标准差。对于同性质的数据来说,标准差越小,表明数据的变异程度越小,即数据越整齐,数据的分布范围越集中;标准差越大,表明数据的变异程度越大,即数据越参差不齐,分布越分散。 二、方差和标准差的适用范围: 方差和标准差的适用范围应当是正态分布。 3 百分位数、四分位数与四分位数间距 4 变异系数 当需要比较两组数据离散程度大小的时候,往往直接使用标准差来进行比较并不合适。这可以被分为两种情况: (1)测量尺度相差太大; (2)数据量纲不同。 在以上情形中,就应当消除测量尺度和量纲的影响,而变异系数(Coefficient of Variance),它是标准差和其平均数的比率。 5.2 连续性变量的参数估计 根据样本数据对总体的客观规律性作出合理估计的过程被称为统计推断(Statistical Inference),它可以被分为参数估计和假设检验两大类。 1 正态分布 一、正态分布的定义 若连续性随即变量X的概率分布密度函数为 则称随机变量X服从正态分布(Normal Distribution) 二、正态分布的特征 (1)正态分布是一条对称曲线,关于均数对称,因此均数被称为正态分布的位置参数。 (2)曲线是单峰,在均值出达到最高点。 (3)正态分布曲线的高矮与标准差有关。因此标准差被称为正态分布曲线的尺度参数。 (4)曲线无论向左或向右延伸,都越来越接近横轴,但不会与横轴相交,以横轴为渐近线。 (5)约68%的个体的取值与平均数在距离一个标准差之内。 (6)约95%的个体取值与平均数的距离在1.96个标准差之内。 (7)99%个体的取值与平均数的距离在2.58个标准差。 三、标准正态分布(Standard Normal Distribution) 将原来的正态分布转换为标准正态分布。 四、偏度和峰度 (1)偏度(Skewness):偏度是用来描述变量取值分布形态的统计量,指分布不对称的方向和程度。样本偏度系数: (2)峰度(Kurtosis):峰度用来描述变量取值分布形态陡缓的统计量,是指分布图形的的尖削程度或峰凸程度。样本的峰度系数: 2 参数的点估计 二、极大似然估计法 该方法的原理是在已知总体的分布,但未知其参数值时,在待估参数的可能取值范围内进行搜索,使似然函数值最大的那个数值为极大似然估计值。 三、稳健估计值 稳健估计值的是该统计量具有稳健性,当数据存在异常值时受影响较小,而且对大部分的分布而言都很好。 3 参数的区间估计 一、标准误 标准误就是用来描述参数估计值可能离真实值究竟有多远的统

文档评论(0)

美洲行 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档