1.3离散程度的测度、偏度与峰度、两个变量的相关关系要点.pptxVIP

下载本文档

101
0
约1.97千字
约 33页
2017-05-13 发布于湖北
举报
版权申诉

1.3离散程度的测度、偏度与峰度、两个变量的相关关系要点.pptx

1、本文档共33页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

1.3离散程度的测度、偏度与峰度、两个变量的相关关系要点

离散程度的测度变量取值的离散程度，反映各个变量之间的差异大小，从而反映分布中心指标对各个变量值代表性的高低离散程度的常用测度指标极差（全距）四分位全距数据从小到大排列后，将数据分割为4等份的3个数分别称为第一、第二、第三个四分位数四分位全距平均差（简单/未分组） 2、构造新的数组|原数值-算数平均数| 平均差（简单/未分组） 3、平均差=新数组的算数平均值平均差（加权/单项数列）步骤1、3求算数平均值的方式不同其余一样标准差（根方差） 1、构造新的数组(原数值-算数平均数)2 2、对新数组求算数平均数 3、再开平方根，得标准差方差方差标准差变异系数比较两组数据离散程度大小的时候，如果两组数据的测量尺度相差太大，或者数据量纲的不同，直接使用标准差等测度指标来进行比较不合适。我们引入变异系数可以消除测量尺度和量纲的影响，变异系数是标准差与其平均数的比，没有量纲，这样就可以进行客观比较了。因此，可以认为变异系数和极差、标准差和方差一样，都是反映数据离散程度的测度指标。其数据大小不仅受变量值离散程度的影响，而且还受变量值平均水平大小的影响。变异系数偏度变量值频数（个）变量值频数（个）偏度小偏度大皮尔逊偏度系数皮尔逊偏度系数皮尔逊偏度系数鲍莱偏度系数鲍莱偏度系数的取值在-1与1之间。绝对值越大变量分布的偏斜程度越大，反之偏斜程度越小。峰度及其测度变量值频数（个）变量值频数（个）峰度小峰度大峰度及其测度峰度是指次数分布曲线顶峰的尖平程度，是次数分布的又一重要特征。统计上，常以正态分布曲线为标准，来观察比较某一次数分布曲线顶峰尖平程度的大小。　　根据变量值的集中与分散程度，峰度一般可表现为三种形态：尖顶峰度、平顶峰度和标准峰度。当变量值的次数在众数周围分布比较集中，使次数分布曲线比正态分布曲线顶峰更为隆起尖峭，称为尖顶峰度；当变量值的次数在众数周围分布较为分散，使次数分布曲线较正态分布曲线更为平缓，称为平顶峰度。可见，尖顶峰度或平顶峰度都是相对正态分布曲线的标准峰度而言的。　　　峰度及其测度峰度及其测度由统计计算分析可知，当次数分布为正态分布曲线时，ku=3，以此为标准就可比较分析各种次数分布曲线的峰度。当ku3时，表示分布曲线呈尖顶峰度，为尖顶曲线，说明变量值的次数较为密集地分布在众数的周围，ku值越大于3，分布曲线的顶端越尖峭。当ku3时，表示分布曲线呈平顶峰度，为平顶曲线，说明变量值的次数分布比较均匀地分散在众数的两侧，ku值越小于3，则分布曲线的顶峰就越平缓。一般当ku值接近于1.8时，分布曲线呈水平矩形分布形态，说明各组变量值的次数相同。当ku值小于1.8时，次数分布曲线趋向“U”型分布。实际统计分析中，通常将偏度和峰度结合起来运用，以判断变量分布是否接近于正态分布。 1.5两个变量的相关关系变量之间的依存关系无论是在自然界还是社会经济领域，一种现象与另一种现象之间往往存在着依存关系，当我们用变量来反映这些现象的特征时，便表现为变量之间的依存关系。如某种商品的销售额（y）与销售量（x）之间的关系、商品销售额（y）与广告费支出（x）之间的关系、粮食亩产量（y）与施肥量（x1）、降雨量（x2）、温度（ x3）之间的关系等。变量之间的依存关系测度两变量相关程度的指标 1、求x和y的算数平均数，均为3 协方差 2、构造新的数组（原数值x-x的算数平均数）（原数值y-y的算术平均数） 1 2 3 4 5 原数值x 5 4 3 2 1 原数值y 协方差 3、协方差=新数组的算数平均值=-2 协方差 1 2 3 4 5 数值x 2 3 4 5 6 数值y 协方差=2 协方差数组序号变量值数组序号变量值协方差=-2 此消彼长协方差=2 共同进步 x y x y 相关系数正的协方差表达了正相关性，负的协方差表达了负相关性。对于同样的两个随机变量来说，计算出的协方差越大，相关性越强。考虑如下问题，若身高和体重的协方差为30，这究竟是多大的一个量呢？若身高与鞋号的协方差为5，是否说明，相对于鞋号，身高与体重的的相关性更强呢？这样横向对比超出了协方差的能力范围。考虑另一种情况，依然是计算身高与体重的协方差。数据完全不变，而只更改单位。我们的体重用克而不是千克做单位，计算出的协防差是原来数值的1000倍！相关系数 x和y的协方差为了能进行这样的横向对比，我们需要用统一的方式来定量变量之间的相关的紧密程度。这时，我们引入相关系数。相关系数是“归一化”的协方差相关系数相关系数