统计学第三章描述统计.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
案例: 使用美国1960年人口调查的数据,引入单批数据箱线图。 表:1960年美国15个最大城市的人口数 根据数据计算: 2、箱线图(box plots) 箱线图是五数总括的图示法,从箱线图中可以看出一批数据的下列特征:位置、展布、偏度、尾长、边远数据点。 本例的箱线图见黑板所示。 一个典型的箱线图如下: 案例: 下图是某市场中各类MODEM产品按所用芯片不同进行价格比较的箱线图: 对箱线图的解释:从MODEM的技术参数上看,目前国内市场上销售的MODEM主要使用三类芯片,即Cirrus Logic芯片、Rockwell芯片和Texas Instruments芯片,简称为CL芯片、RW芯片和TI芯片。根据2000年7月的市场情况,CL芯片主要用于600元以下的低端MODEM产品,中间价为320元,RW芯片主要用于中档MODEM,产品线很长,价格跨度从150元直至800元以上,中间价为480元。TI芯片主要为高档MODEM,价格跨度从300元至1100元,中间价为550元。 统计学第三章描述统计. 谢谢 2、尺度变换 尺度变换的例子: 三匹马的体重分别为200kg、201kg、202kg,三只蚂蚁的体重分别为500mg、1000mg、1500mg,无法在同一坐标系上表示出马和蚂蚁的体重离散程度。可以将蚂蚁的体重称上5000000,进行尺度变换,将蚂蚁的体重变为250kg、500k、750kg,从而可以将这些数据在同一坐标系中表示出来。 对于数据差异较大或者较小,普通坐标系无法容纳的情况,通过这种变换,能够使之尺度发生变化,适应常规尺度。 3、一般线性变换 一般线性变换是原点变换与尺度变换同时作用的结果。 4、中心化变换 中心化变换可以将数据批调整到以平均值为中心。 5、标准化变换 标准化变换是将数据批进行原点和尺度的同时变换,使之与标准正态分布的规格相一致。 例子:歌手大奖赛 A地区歌手得分分别为:80、85、87、90、92;B地区歌手得分分别为:93.7、93.4、93.0、94.2、94.7;C地区歌手得分分别为:9.7、9.6、9.4、9.6、9.5。 假定打分是同样分布的一批歌手,因为各地的打分情况不同,不能简单的比较各个地区的歌手好坏。 为了比较这三个不同的数据批,可以将数据进行标准化变换。 A地区歌手得分标准化变换后的分数为: -1.632、-0.432、0.048、0.768、1.248; B地区歌手得分标准化变换后的分数为: -0.168、-0.670、-1341、0.670、1.508。 经过标准化变化的两批数据状况分析: 可以看出B地区最高分的表现比平均水平高出1.508,而A地区的最高分仅高出1.248,说明B地区最高分的表现更出众。 6、规格化变换(极差变换) 规格化变换是将数据批调整至最大值为1,最小值为0的区间。 7、非线性变换 非线性变换主要用于数据序列的变化规律不均匀的场合中,例如,当处理一批平均水平不同的数据时,需要将数据进行对数变换,以求在同一坐标系内反映不同的数据批。 例如:我国的移动电话的数量,可以用黑板上的图来表示。因为数量太大,不能进行原点变换等其他变换方式。 我们需要找到一种方式进行变换,其一是要使得数据能够保持原有的单调变化,其二是能够使得这个变化过程在整个图中都表示出来。 我们可以采用对数变换的方式。 本例中我们取以10为底的对数。 300部手机取对数后为2.477,10万部手机取对数后为5,7000万步手机取对数后为7.845,3亿部手机取对数后为8.477。再在图中就可以很清楚的表示出来了。 二、探索性数据分析 探索性数据分析是描述统计中一个重要的课题。数据分析人员经常要面对纷繁复杂的原始数据,如果不能掌握数据的基本规律,就不可能有针对性地采用各种统计方法。 在实践中,数据分析往往分为两个步骤:探索性数据分析与证实分析。 探索性数据分析是从复杂的数据中分离出数据的基本模式和特点,让分析者发现其中的规律,以便选择分析方法。对于在探索性数据分析中发现的数据规律,分析者需要使用特定的统计模型进行证实分析,以确定规律是否正确。 探索性数据分析与证实分析在一次数据分析中往往要多次交替使用,在证实分析结束后,分析人员可能会发现更多有待探索的数据模式,从而需要再次使用探索性数据分析工具。 探索性数据分析有四大主题,分别是: 1、耐抗性 2、残差 3、重新表达 4、图示 1、耐抗性 所谓耐抗性,是指分析方法对于数据局部不良行为的非敏感性。 原始数据来源不可能保证所有的数据均准确无误,在数据存在少量错误的情况下,如何能够不被错误数据所误导,而认识到数据的本来面目,十分重要。 2、残差 残差是指从数据中减去一个总括统计量或拟合模型后的残余部分。 当残差出现异常时,数据中往往有值得注意的系统性问

您可能关注的文档

文档评论(0)

yaocen + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档