1.3离散程度的测度、偏度与峰度、两个变量的相关关系要点.pptxVIP

1.3离散程度的测度、偏度与峰度、两个变量的相关关系要点.pptx

  1. 1、本文档共33页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
1.3离散程度的测度、偏度与峰度、两个变量的相关关系要点

离散程度的测度 变量取值的离散程度,反映各个变量之间的差异大小,从而反映分布中心指标对各个变量值代表性的高低 离散程度的常用测度指标 极差(全距) 四分位全距 数据从小到大排列后,将数据分割为4等份的3个数分别称为第一、第二、第三个四分位数 四分位全距 平均差(简单/未分组) 2、构造新的数组|原数值-算数平均数| 平均差(简单/未分组) 3、平均差=新数组的算数平均值 平均差(加权/单项数列) 步骤1、3求算数平均值的方式不同 其余一样 标准差(根方差) 1、构造新的数组(原数值-算数平均数)2 2、对新数组求算数平均数 3、再开平方根,得标准差 方差 方差 标准差 变异系数 比较两组数据离散程度大小的时候,如果两组数据的测量尺度相差太大,或者数据量纲的不同,直接使用标准差等测度指标来进行比较不合适。 我们引入变异系数可以消除测量尺度和量纲的影响,变异系数是标准差与其平均数的比,没有量纲,这样就可以进行客观比较了。因此,可以认为变异系数和极差、标准差和方差一样,都是反映数据离散程度的测度指标。其数据大小不仅受变量值离散程度的影响,而且还受变量值平均水平大小的影响。 变异系数 偏度 变量值 频数(个) 变量值 频数(个) 偏度小 偏度大 皮尔逊偏度系数 皮尔逊偏度系数 皮尔逊偏度系数 鲍莱偏度系数 鲍莱偏度系数的取值在-1与1之间。绝对值越大变量分布的偏斜程度越大,反之偏斜程度越小。 峰度及其测度 变量值 频数(个) 变量值 频数(个) 峰度小 峰度大 峰度及其测度 峰度是指次数分布曲线顶峰的尖平程度,是次数分布的又一重要特征。统计上,常以正态分布曲线为标准,来观察比较某一次数分布曲线顶峰尖平程度的大小。   根据变量值的集中与分散程度,峰度一般可表现为三种形态:尖顶峰度、平顶峰度和标准峰度。当变量值的次数在众数周围分布比较集中,使次数分布曲线比正态分布曲线顶峰更为隆起尖峭,称为尖顶峰度;当变量值的次数在众数周围分布较为分散,使次数分布曲线较正态分布曲线更为平缓,称为平顶峰度。可见,尖顶峰度或平顶峰度都是相对正态分布曲线的标准峰度而言的。    峰度及其测度 峰度及其测度 由统计计算分析可知,当次数分布为正态分布曲线时,ku=3,以此为标准就可比较分析各种次数分布曲线的峰度。当ku3时,表示分布曲线呈尖顶峰度,为尖顶曲线,说明变量值的次数较为密集地分布在众数的周围,ku值越大于3,分布曲线的顶端越尖峭。当ku3时,表示分布曲线呈平顶峰度,为平顶曲线,说明变量值的次数分布比较均匀地分散在众数的两侧,ku值越小于3,则分布曲线的顶峰就越平缓。一般当ku值接近于1.8时,分布曲线呈水平矩形分布形态,说明各组变量值的次数相同。当ku值小于1.8时,次数分布曲线趋向“U”型分布。实际统计分析中,通常将偏度和峰度结合起来运用,以判断变量分布是否接近于正态分布。 1.5两个变量的相关关系 变量之间的依存关系 无论是在自然界还是社会经济领域,一种现象与另一种现象之间往往存在着依存关系,当我们用变量来反映这些现象的特征时,便表现为变量之间的依存关系。 如某种商品的销售额(y)与销售量(x)之间的关系、商品销售额(y)与广告费支出(x)之间的关系、粮食亩产量(y)与施肥量(x1)、降雨量(x2) 、温度( x3)之间的关系等。 变量之间的依存关系 测度两变量相关程度的指标 1、求x和y的算数平均数,均为3 协方差 2、构造新的数组 (原数值x-x的算数平均数) (原数值y-y的算术平均数) 1 2 3 4 5 原数值x 5 4 3 2 1 原数值y 协方差 3、协方差=新数组的算数平均值=-2 协方差 1 2 3 4 5 数值x 2 3 4 5 6 数值y 协方差=2 协方差 数组序号 变量值 数组序号 变量值 协方差=-2 此消彼长 协方差=2 共同进步 x y x y 相关系数 正的协方差表达了正相关性,负的协方差表达了负相关性。对于同样的两个随机变量来说,计算出的协方差越大,相关性越强。 考虑如下问题,若身高和体重的协方差为30,这究竟是多大的一个量呢?若身高与鞋号的协方差为5,是否说明,相对于鞋号,身高与体重的的相关性更强呢? 这样横向对比超出了协方差的能力范围。考虑另一种情况,依然是计算身高与体重的协方差。数据完全不变,而只更改单位。我们的体重用克而不是千克做单位,计算出的协防差是原来数值的1000倍! 相关系数 x和y的协方差 为了能进行这样的横向对比,我们需要用统一的方式来定量变量之间的相关的紧密程度。这时,我们引入相关系数。相关系数是“归一化”的协方差 相关系数 相关系数

文档评论(0)

shuwkb + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档