- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第三章__数据特征的描述
宁波大学商学院 郑建华 第三章 数据特征的描述 大量数据经过整理后,已经能够初步反映数据(或总体)的分布规律,特别地频率分布图形给了我们一个直观的印象。然而,在统计分析和决策中,还需要通过一些概括性的数值来对数据的分布特征进行更为精确、简练的描述。 3.1 数据集中趋势特征的描述 3.2 数据离中趋势特征的描述 3.3 数据分布形态特征的描述 3.4 统计表与统计图 3.1 数据集中趋势特征的描述 集中趋势(central tendency)是指一组数据向某一中心值靠拢的倾向。描述集中趋势就是寻找数据一般水平的代表值或中心值。 3.1.1 算术平均数(arithmetic mean) 3.1.2 众数(mode) 3.1.3 中位数(median) 3.1.4 均值、众数、中位数的比较 3.1.1 算术平均数 算术平均数有时简称为均值(mean),定义为全部数据的总和除以数据的个数。一般用记号:μ(总体数据的均值)和(样本数据的均值)。 根据数据的表现形式不同,有不同的计算公式。 原始数据:简单算术平均 分组数据:加权算术平均 例题:数据特征描述案例.xls 均值的性质特点: 对一个数量数据(观察值全体),只可能有一个均值存在; 均值考虑了数据集中的每个观察值; 均值易受极端观察值的影响; 每个观察值与均值的离差值和为零(正负抵消); 每个观察值与均值的离差平方和为最小。 3.1.2 众数 众数(Mode)是一组数据中出现次数最多或最频繁的观察值。如: (a) 5,7,10,8,9,9,6,100; (b)3,3,4,5,7,5; (c)2,4,8,7,9 (d)某停车处停放汽车的颜色:3红,12黑,6兰。 可见: 众数既可用于变量数据也可用于属性数据; 众数不受极端值的影响; 一组数据不一定存在众数,也可能不止一个众数。 对于组距分组,假设数据的分布具有明显的集中趋势,频数直方图具有单峰形态,同时假设众数组的频数在该组是分布均匀的,则众数的估计方法如下: 频数分布图法:modemedian.doc 公式法:modemedian.doc 计算举例:数据特征描述案例.xls 3.1.3 中位数 中位数(median)是一组数据按大小顺序排列后,处于全部数据中间位置的数值。数据包含n个观察值,则中位数的位置由(n+1)/2确定。当n为奇数时,该位置存在一个观察数值,它就是中位数。当n为偶数时,该位置处于n/2和n/2+1两个整数位置的中间,因而不存在观察值与其对应,定义中位数为处于n/2和n/2+1位置的两数的算术平均数。 原始数据情形,组距分组数据情形。数据特征描述案例.xls 中位数存在如下特点: 中位数受极端值的影响很小; 中位数适合于任何类型的数据,只要数据能够以某种方式排序; 在确定中位数时,并没有考虑所有的观察值; 3.1.4 均值、众数、中位数的比较 均值、众数、中位数的关系 从频率曲线图看:众数出现的频率最高,始终对应曲线的最高峰;中位数处于数据的中间位置,平分频率分布曲线下方的面积;均值为所有数据的算术平均,对应分布曲线的型心(或重心)。 从数值大小看,Me处于三数中间;且存在近似关系: Mo-mean≈3(Me-mean). 平均数关系.doc 使用场合: 如果数据分布具有明显的单峰形态,且峰值较为突出,想用一个数据代表“典型水平”,则众数比较合适. 如果想说明“一般水平”或“中间水平”,中位数和均值比较合适. 如果数据包含极端值,我们希望用一个代表性数值反映数据的“一般水平”或“中间水平”,而且侧重于后者,中位数更合适. 均值只能适合于定量性数据,中位数适合于有序数据和定量性数据,众数适合于定性和定量的数据. 3.2 数据离中趋势特征的描述 离中趋势(tendency of deviation from the central value)反映的是数据的观察值之间的差异或远离中心值的程度,也称离散(dispersion or spread)程度. 集中趋势和离中趋势是数据分布的两个不同侧面的特征. 极差(range): 平均差(mean deviation) 方差和标准差(variance and standard deviation): 离散系数(coefficient of variation): 数据标准化得分(score): 3.3 数据分布形态的描述 偏度系数(Skewness) 峰度系数(Kurtosis) 3.4 统计表与统计图 * *
文档评论(0)