-描述统计.pptVIP

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、本文档共91页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
-描述统计

第三章 描述统计 第一节 数据预处理 一、缺失值处理 缺失值是指在数据采集与整理过程中丢失的内容。 处理缺失值有两种手段 手段一:删除对应的记录 手段二:对缺失记录进行插值 插值方法 随机插值 根据缺失值的各种可能情况,等概率地进行插值。 依概率插值 根据变量取各种值的概率进行插值 就近插值 用与缺失记录相邻的值进行插值 分类插值 根据缺失记录的其他信息进行分类,并依本类中的取值概率进行插值 二.数据分组 1.分组标志的选择 2.组数的确定 根据天然的组数进行确定 根据样本量确定,使分组后的组内单位数适当 3.组距和组限的确定 根据自然和社会习惯确定 根据样本结构确定,使各组单位数相对平衡 组限 可以利用分布的累积曲线来等距划分组限 缺上限组或缺下限组 组限重合 在组限重合的情况下,默认的情况是重合点属取值较高的一组 如:相邻两组为(500-1000元),(1000-2000)元,则1000元属后一组。 4.组中值的确定 组中值用于描述各组的平均状况 组中值=(上限+下限)/2 对于缺上限或缺下限组,组中值的计算 (1)上限-邻近组组距/2 (2)邻近组组距过大的缺下限组:上限/2 (3)根据社会经济实践经验确定 案例:组中值确定 三.次数分配 次数分配是指观察值按分组标志分配在各组内的记录数。 各组中观察值的数量称为次数,也称频数。 各组次数与总次数的比例,称为频率。 出于统计分析的目的,需要对高于或低于某一组的所有观察值的次数进行统计,这样形成的次数分配表,称为累积次数分配表。 累积分布 四、数据的图示法 分类数据:条形图,帕累托图,饼图 顺序数据:累积频数图,环形图 数值数据:直方图,茎叶图,箱线图,序列数据线形图,二维散点图,气泡图,雷达图 分布曲线 在平面直角坐标系上,以分组标志为横轴,次数或者频率为纵轴,可以画出次数分配的直方图。 1.钟型分布 钟形分布是社会经济现象中最常见的分布形式,具体表现为中间隆起,两侧逐渐降低。 钟形分布表明数据具有集中的趋势,大多数数据集中在中间,越往两端,数据越少。在远离中心的位置,只有极少数的数据。 钟形分布的中间隆起部分称为峰,两侧称为尾。 钟形分布的形式 如果钟形分布两侧的数据不对称,则称为偏态的钟形分布。 根据较长的尾所指的方向不同,将偏态又可分为正偏(右偏)和负偏(左偏)两种 较长的尾部指向左方,即数据的负方向,称为负偏态,或左偏态 长尾部指向右方,即数据的正方向,称为正偏态,或右偏态 在自然中,严格对称的钟形分布是很少见的 正态分布是特殊条件下的一种对称分布,不能认为正态分布是一种常态。 正态分布 根据李亚普诺夫中心极值定理 对于相互独立的随机变量X1,X2,..,Xn,若满足 则对于任一Z,有 正态分布的通俗陈述 对于由n个变量共同影响的合成变量Z,如果n个变量中没有任何一个变量起决定性作用,则Z满足正态分布。 有人建议恢复正态分布(Normal Distribution)的原名称为高斯分布(Gaussian Distribution) 2.J形分布 J形分布一般是累积分布的表现形式,在图形上表现为一条从下向上单调变化的曲线。根据J形分布的方向,又可分为正J形和反J形。 3.U形分布 U形分布是指中间凹陷,两端翘起的分布形式,反映出某一个社会经济现象在开始和结束时某项活动比较频繁,而在中间则相对比较稳定。 U形曲线因形状象浴缸,又称为浴缸曲线。是两个不同的因素同时对一个社会经济现象起作用的结果。 如产品故障率,同时受产品自身缺陷和老化两个因素影响,在使用初期,自身缺陷造成的故障率较高,在使用后期,则老化引起的故障率较高,中间阶段则正好处于两个故障率均较低的阶段。 根据浴缸曲线可以制定产品的售后服务政策 对于自身缺陷带来的产品损坏,应提供保换服务 对于中途由于偶然因素造成的损坏,应提供保修服务 在老化期,应建议用户淘汰旧产品。 4.多峰分布 多峰分布是指超过一个隆起部分的分布。 数列有若干个隆起部分,反映出影响数据的主要因素有若干个不同的水平,受不同水平影响的数据分别以不同的中心点聚集,从而形成若干个峰值。 洛伦兹曲线 考察一个社会中不同个体收入水平的差异,将个体按收入水平从低到高进行排列,并计算各收入段的累积频率,并将这一结果绘在图上,可以获得一条严格向下凹的曲线 此曲线可用于显示社会的不公平程度,称为洛伦兹曲线 数据示例-收入不公平情况 洛伦兹曲线 基尼系数 不公平面积与下三角形面积之商 反映不公平程度的大小,取值区间在0-1之间。 其中:P I:各组的人数比重 Ii:各组的收入比重 I’i:各组的收入累积比重 N:组数 基尼系数的实例 世界银行估算一些国家的基尼系数 中国(2001年):44.7 美国(2000年):40.8 日本(19

文档评论(0)

panguoxiang + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档