《统计学—基于R》(第5版) 课件 第4章 数据的描述统计量(R5).pptx

《统计学—基于R》(第5版) 课件 第4章 数据的描述统计量(R5).pptx

  1. 1、本文档共25页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
贾俊平2023/2/134.1 描述水平的统计量 4.2 描述差异的统计量 4.3 描述分布形状的统计量4.4 数据标准化4.5 数据的综合描述 第 4 章 数据描述统计量 数据的水平也称位置度量,反映全部数据的数值大小数据的差异反映各数据间的离散程度分布的形状反映数据分布的偏度和峰度数据的描述统计量 数据描述的三个角度 ?简单平均数加权平均数??描述水平的统计量4.1 平均数【例4-1】在某年级中随机抽取30名学生,得到每名学生的数学考试分数。计算考试分数的平均数R 实现 描述水平的统计量4.1 平均数——加权平均数——例题分析【例4-2】沿用例4-1。假定将30名学生的数学考试分数分组后结果表所示。计算考试分数的平均数分组组中值(m)人数(f) 60以下55360~7065470~8075480~908510 90~100959合计—30R 实现 描述水平的统计量 分位数——中位数分位数一组数据按从小到大排序后,可以找出排在某个位置上的数值,该数值可以代表数据水平的高低。这些位置上的数值就是相应的分位数(quantile)常用的分位数有中位数、四分位数、百分位数等位置确定数值计算??中位数排序后处于中间位置上的值。不受极端值影响4.1【例4-3】沿用例4-1。计算30名学生数学考试分数的中位数R 实现 描述水平的统计量 分位数——四分位数四分位数一组数据排序后处在25%和75%位置上的数值用3个点将全部数据等分为4部分,其中每部分包含25%的数据中间的四分位数就是中位数,因此通常所说的四分位数是指处在25%位置上和75%位置上的两个数值4.1?位置确定——R默认算法:type=7?R 实现 描述水平的统计量 分位数——百分位数百分位数用99个点将数据分成100等份,处在各分位点上的数值就是百分位数百分位数提供了各项数据在最小值和最大值之间分布的信息4.1?位置确定——R默认算法:type=7?R 实现 描述水平的统计量 众数?4.1【例4-6】沿用例4-1。计算30名学生考试分数的众数R 实现 描述差异的统计量 极差和四分位差?4.2【例4-7】沿用例4-1。计算30名学生考试分数的极差和四分位差R 实现 描述差异的统计量 方差和标准差方差离差平方和的平均数标准差方差开平方根后的结果称为标准差(SD)4.2【例4-9】沿用例4-2。根据表4-2的分组数据,计算30名学生考试分数的方差和标准差R 实现 简单样本方差简单样本标准差??加权样本方差加权样本标准差??【例4-8】沿用例4-1。计算30名学生考试分数的方差和标准差 描述差异的统计量 变异系数变异系数变异系数(coefficient of variation,CV)也称离散系数一组数据的标准差与其相应的平均数之比消除了数值大小和计量单位对标准差的影反映一组数据的相对离散程度4.2【例4-10】为分析不同行业上市公司每股收益的差异,在互联网服务行业和机械制造行业各随机抽取10家上市公司,得到某年度的每股收益数据如表4-3所示。计算变异系数,比较两类上市公司每股收益的离散程度R 实现 ?互联网公司机械制造公司0.460.980.680.621.280.401.400.041.250.601.570.351.050.951.380.421.380.030.910.85 描述分布形状的统计量 偏度系数?4.3??算法1:对应于R的e1071包中skewness函数的type=1。比较传统教材中的定义算法2:应于R的e1071包中skewness函数的type=2。也是Python的pandas模块中DataFrame.skew函数,SPSS,SAS,Excel软件中的默认算法算法3:对应于R的e1071包中skewness函数的type=3(函数默认算法),该算法是Mintab软件中的默认算法?? 描述分布形状的统计量 峰度系数偏度系数峰度(kurtosis)是指数据分布峰值的高低由统计学家K.Pearson于1905年首次提出峰度系数—测度一组数据分布峰值高低的统计量是(coefficient of kurtosis),记作K4.3?算法1:对应于R的e1071包中kurtosis函数的type=1。传统教材中的定义算法2:对应于R的e1071包中kurtosis函数的type=2。也是Python的pandas模块中DataFrame.skew函数,SPSS,SAS,Excel软件中的默认算法算法3:对应于R的e1071包中kurtosis函数的type=3(函数默认算法)该算法是Mintab软件中的默认算法??? 描述分布形状的统计量 偏度系数和峰度系数——例题分析同分布形状对应的偏度系数和峰度系数4.

文档评论(0)

balala11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档