多媒体课件-商业统计-第五周.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
多媒体课件-商业统计-第五周

第 3 章 数据的描述性分析:概括性度量 3.1 水平的描述 3.2 差异的描述 3.3 分布形状的描述 3.4 数据的综合描述 学习目标 描述水平的统计量 描述差异的统计量 描述分布形状的统计量 各统计量的的特点及应用场合 用SPSS计算描述统计量 问题与思考 怎样分析学生的考试成绩 50个学生考试分数数据 3.1.1 平均数 平均数 (mean) 也称为均值,常用的统计量之一 消除了观测值的随机波动 易受极端值的影响 根据总体数据计算的,称为平均数,记为?;根据样本数据计算的,称为样本平均数,记为?x 简单算数平均 (Simple mean) 3.1.2 中位数和分位数 中位数 (median) 排序后处于中间位置上的值。不受极端值影响 中位数的计算 (数据个数为偶数) 【例3—2】 10名学生的考试分数的中位数 四分位数—用3个点等分数据 (quartile) 排序后处于25%和75%位置上的值 四分位数的计算 (位置的确定) 众数 (mode) 一组数据中出现次数最多的变量值 适合于数据量较多时使用 不受极端值的影响 一组数据可能没有众数或有几个众数 3.1.3 水平代表值的选择 众数、中位数和平均数的关系 众数、中位数、平均数的特点和应用 平均数 易受极端值影响 数学性质优良,实际中最常用 数据对称分布或接近对称分布时代表性较好 中位数 不受极端值影响 数据分布偏斜程度较大时代表性接好 众数 不受极端值影响 具有不惟一性 数据分布偏斜程度较大且有明显峰值时代表性较好 3.2.1 极差和四分位差 极差 (range) 一组数据的最大值与最小值之差 离散程度的最简单测度值 易受极端值影响 未考虑数据的分布 计算公式为:R = max(xi) - min(xi) 四分位差 (quartile deviation) 也称为内距或四分间距 上四分位数与下四分位数之差:Qd = QU – QL 反映了中间50%数据的离散程度 不受极端值的影响 用于衡量中位数的代表性 3.2.2 方差和标准差 方差和标准差 (variance and standard deviation) 数据离散程度的最常用测度值 反映各变量值与均值的平均差异 根据总体数据计算的,称为总体方差(标准差),记为?2(?);根据样本数据计算的,称为样本方差(标准差),记为s2(s) 方差和标准差 (variance and standard deviation) 3.2.3 变异系数 变异系数 (coefficient of variation) 1. 标准差与其相应的均值之比 对数据相对离散程度的测度 消除了数据水平高低和计量单位的影响 4. 用于对不同组别数据离散程度的比较 5. 计算公式为 变异系数 (例题分析) 【 例3—5】评价哪名运动员的发挥更稳定 变异系数 (例题分析) 【 例3—5】评价哪名运动员的发挥更稳定 3.2.4 标准得分 标准得分 (standard score) 1. 也称标准化值 2. 对某一个值在一组数据中相对位置的度量 3. 可用于判断一组数据是否有离群点(outlier) 用于对变量的标准化处理 均值等于0,方差等于1 计算公式为 用SPSS计算标准得分 标准分数 (例题分析) 经验法则 ?经验法则表明:当一组数据对称分布时 约有68%的数据在平均数加减1个标准差的范围之内 约有95%的数据在平均数加减2个标准差的范围之内 约有99%的数据在平均数加减3个标准差的范围之内 切比雪夫不等式 (Chebyshev’s inequality) 如果一组数据不是对称分布,经验法则就不再适用,这时可使用切比雪夫不等式,它对任何分布形状的数据都适用 切比雪夫不等式提供的是“下界”,也就是“所占比例至少是多少” 对于任意分布形态的数据,根据切比雪夫不等式,至少有1-1/k2的数据落在平均数加减k个标准差之内。其中k是大于1的任意值,但不一定是整数 切比雪夫不等式 (Chebyshev’s inequality) ?对于k=2,3,4,该不等式的含义是 至少有75%的数据落在平均数加减2个标准差的范围之内 至少有89%的数据落在平均数加减3个标准差的范围之内 至少有94%的数据落在平均数加减4个标准差的范围之内 数据分布的形状—偏态与峰度 偏态 (skewness) 统计学家K.Pearson于1895年首次提出。是指数据分布的不对称性 测度统计量是偏态系数(coefficient of skewness) 偏态系数=0为对称分布;0为右偏分布;0为左偏分布 偏态系数大于1或小于-1,为高度偏态分布;偏态系数在0.5~1或-1~-0

文档评论(0)

wyjy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档