数据分布特征描述讲义.doc

下载文档 降价啦

10
0
约7.57千字
约 12页
2017-10-06 发布于湖北
举报
版权申诉
保障服务

数据分布特征描述讲义.doc

1、本文档共12页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第三章数据分布特征的描述一教学目的 1、集中趋势的指标计算方法； 2、离散趋势的指标计算方法； 3、分布与峰度的测学习内容第一节集中趋势的测定 2.出现次数最多的变量值； 3.不受极端值的影响； 4.可能没有众数或有几个众数； 5.适用于定类数据、定序数据、定距数据和定比数据。众数的不唯一性：无众数原始数据: 10 5 9 12 6 8 一个众数原始数据: 6 5 9 8 5 5 多于一个众数原始数据: 25 28 28 36 42 42 （二）众数确定 1.定类数据和定序数据众数的测定定类数据与定序数据计算众数时，只需找出出现次数最多的组所对应的变量值即为众数。 2.未分组数据或单变量值分组数据众数的确定未分组数据或单变量值分组数据计算众数时，我们只需找出出现次数最多的变量值即为众数。 3.组距分组数据众数的确定组距分组数据，众数的数值与其相邻两组的频数分布有一定的关系，这种关系可作如下的理解：设众数组的频数为，众数前一组的频数为，众数后一组的频数为。当众数相邻两组的频数相等时，即=，众数组的组中值即为众数；当众数组的前一组的频数多于众数组后一组的频数时，即＞，则众数会向其前一组靠，众数小于其组中值；当众数组后一组的频数多于众数组前一组的频数时，即＜，则众数会向其后一组靠，众数大于其组中值。基于这种思路，借助于几何图形而导出的分组数据众数的计算公式如下：其中：L表示众数所在组的下限；U表示众数所在组的上限；i表示众数所在组的组距；fm为众数组的频数；f-1为众数组前一组的频数；f+1为众数组后一组的频数。上述下限和上限公式是假定数据分布具有明显的集中趋势，且众数组的频数在该组内是均匀分布的，若这些假定不成立，则众数的代表性就会很差。从众数的计算公式可以看出，众数是根据众数组及相邻组的频率分布信息来确定数据中心点位置的，因此，众数是一个位置代表值，它不受数据中极端值的影响。二、中位数（一）概念中位数是将总体各单位标志值按大小顺序排列后，处于中间位置的那个数值。 1.集中趋势的测度值之一； 2.排序后处于中间位置上的值； 3.不受极端值的影响； 4.适用于定序数据和数值型数据； 5.各变量值与中位数的离差绝对值之和最小，即：（二）中位数的确定 1.定序数据中位数的确定定序数据中位数确定的关键是确定中间位置，中间位置所对应的变量值即为中位数。（1）未分组原始资料中间位置的确定（2）分组数据中间位置的确定 2.数值型数据中位数的确定（1）未分组资料首先必须将标志值按大小排序。设排序的结果为：则：（2）单变量分组资料（3）组距分组资料 ① 根据位置公式确定中位数所在的组； ② 假定在中位数组内的各单位是均匀分布的，就可利用下面的公式计算中位数的近似值: 其中，是到中位数组前面一组为止的向上累计频数，则是到中位数组后面一组为止的向下累计频数；fm为中位数组的频数；i为中位数组的组距。三、算术平均数算术平均数(Arithmetic mean)也称为均值(Mean)，是全部数据算术平均的结果。算术平均法是计算平均指标最基本、最常用的方法。算术平均数在统计学中具有重要的地位，是集中趋势的最主要测度值，通常用表示。根据所掌握数据形式的不同，算术平均数有简单算术平均数和加权算术平均数。（一）简单算术平均数(Simple arithmetic mean) 未经分组整理的原始数据，其算术平均数的计算就是直接将一组数据的各个数值相加除以数值个数。设总体数据为X1,X2,…,Xn，样本数据为x1,x2,…,xn 则统计总体均值和样本均值的计算公式为：　　　　（二）加权算术平均数(Weighted arithmetic mean) 根据分组整理的数据计算的算术平均数，就要以各组变量值出现的次数或频数为权数计算加权的算术平均数。设原始数据（总体或样本数据）被分成K或k组，各组的变量值为X1,X2,…,XK，或x1,x2,…,xk，各组变量值的次数或频数分别为F1,F2…FK，或f1,f2,…,fk，则总体或样本的加权算术平均数为：上述公式中是用各组的组中值代表各组的实际数据，使用代表值时是假定各组数据在各组中是均匀分布的，但实际情况与这一假定会有一定的偏差，使得利用分组资料计算的平均数与实际的平均值会产生误差，它是实际平均值的近似值。加权算术平均数其数值的大小，不仅受各组变量值大小的影响，而且受各组变量值出现的频数即权数大小的影响。如果某一组的权数大，说明该组的数据较多，那么该组数据的大小对算术平均数的影响就