- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第六章统计分析基础
第六章 统计分析基础知识;第1节 数据统计分析概述
第2节 描述性统计分析
第3节 推断统计;学习目标;第1节 数据统计分析概述;一、数据统计分析的目的;二、统计分析中的基本概念;三、统计分析中的变量[1];根据测量尺度划分
定类变量:是一种测量精确度最低、最粗略的基于“质”因素的变量,它的取值只代表观测对象的不同类别 。常用来综合定类数据的统计量是频数、比率或百分比等。
定序变量:其取值的大小能够表示观测对象的某种顺序关系(等级、方位或大小等),也是基于“质”因素的变量。适合用于综合定序数据取值的集中趋势的统计量是中位数 。 ;根据测量尺度划分
定距变量:其取值之间可以比较大小,可以用加减法计算出差异的大小。常用的统计量如均值、标准差、相关系数等。
定比变量:它与定距变量意义相近,细微差别在于定距变量中的“0”值只表示某一取值,不表示“没有”,而定比变量的“0”值表示“没有” 。;数据的四种计量尺度及其适用统计方法的比较 ;一、单变量描述统计
百分数
集中趋势分析
离散趋势分析
频数分布分析
二、双变量描述统计
交叉列联表分析
变量关联的度量;一、单变量描述统计[1];百分数
百分数一般借助统计分析表来计算,例如: ;集中趋势分析
众数:观测数据中出现频率最高的属性值。
例如下表中的众数为27岁。 ;集中趋势分析
中位数:将观测数据按大小顺序一分为二的变量属性值。若样本总数是奇数,中间的那个便是中位数值 ;若样本总数是偶数,中位数就是中间的两个数值的平均值。
中位数最适合于描述定序尺度的数据聚中趋势 。对于定比和定距变量,中位数有时也能适当地反映其聚中特征 。;集中趋势分析
平均数(均值):定比和定距尺度下平均数是应用最多的反映集中趋势的指标,一般包括算术平均数、调和平均数和几何平均数三种。
算术平均数最简单,也是测定集中趋势最常用的指标,观测值的总和除以观测次数即得出算术平均数。;均值、中位数和众数的比较及适用范围
均值适于定距或定比变量,优点是能充分利用数据的全部信息,比较稳定;缺点是易受极端值影响 。
中位数不适于定类变量,适于定序、定距、定比变量,特别是分布不规则的数据。优点是不受极端值的影响;缺点是没有充分利用数据的全部信息,稳定性差于均值,优于众数 。
众数不适用于未分组的连续变量,主要适用于定类、定序变量。优点是不受极端值影响,尤其是分布明显呈偏态时,众数的代表性更好;缺点是没有充分利用数据的全部信息,缺乏敏感性和稳定性 。;离散趋势分析
方差与标准差:反映的是所有观测值对均值的离散关系,其数值大小与均值代表性的大小呈反向变化关系。
样本方差的计算公式:
标准差为方差的二次方根。;离散趋势分析
级差:数组中最高值和最低值的差距,它只适用于定比和定距数据。
极差简单直观,但它由两极端偏异值决定,并不能充分反映数据的离散程度。
例如:由79,79,79,80,81,81,81构成的数组的级差为2,即81-79=2 。 ;离散趋势分析
四分位差:将一组数据从小到大排列后,用3个四分位数点将其分为四个相等的部分,第一个四分位数点是第25百分位数点,又叫低四分位数点;第二个四分位数点是第50百分位数点,即中位数;第三个四分位数点是第75百分位数点,又叫高四分位数点。
高四分位数点与低四分位数点之同的距离即为四分位差。 ;标准差、四分位差和极差的区别;离散趋势分析
变异系数:变异系数也称为离散系数,即标准差与均值比值,主要用于不同类别数据离散程度的比较。
变异系数的好处在于:标准差的大小不仅与数据的测度单位有关,也与观测值的均值大小有关,不能直接用标准差比较离散程度,而变异系数消除了测度单位和观测值水平不同的影响,因而可以直接用来比较数据的离散程度。 ;离散趋势分析
斜度和峰度用于描述调查数据的分布与正态分布之间的差异程度。
斜度表示分布的不对称程度和方向 。
峰度表示分布与正态曲线相比的冒尖程度或扁平程度。 ;频数分布分析
对变量进行频数分布分析,就是计算该变量的各取值被回答的次数及其所占的比例。
频数分布分析不仅要分析所关心数据的集中趋势、离散性和分布形状,还要计算缺失数据、极端值、范围外数据的比例等。
描述频数分布常用的方法是频数表和直方图 。;一、单变量描述统计[14];连续变量制作频数表的一般步骤是:
找出数据的取值范围,即最大值、最小值;
确定组数与组距,一般视分析目的而定,但组数不要太多,通常5~15组比较合适,也可以用Sturges公式确定组数;
确定组限(上限与下限)与组中值;
计算观测数据落入各组的频数与频率。;二、双变量描述统计[1] ;交叉列联表分析
由于各行、列样本的总数不同,相互之间无法进行比较,难以判别变量之间的关系,为此,将各要素的频数变成百分数,即将频数除以相应行列的总数。
行
文档评论(0)