第3篇 数据分布特征的描述.pptVIP

  1. 1、本文档共68页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
从分布曲线的角度看: 无众数:分布曲线没有明显的集中趋势或高峰。 单峰分布:分布曲线明显地存在一个众数。 双峰分布:有两个不临近的数据具有相对较高的频数(即使频数不相等)。 多峰分布:有几个相对较高的频数的分布。 例3-7 根据表3-3的数据计算灯泡使用寿命的众数。 解:次数最多的组是第四组,即1400~1600之间。 具体数值为 或 3. 统计推断的重要依据。 判别统计推断前提条件是否成立, 衡量推断效果好坏的重要尺度。 两类变异指标: 用绝对数或平均数表示:极差、四分位差、平均差、标准差等。 用相对数表示:离散系数、异众比率等。 【例3-11】 计算例3-3中标准差系数。若另一品牌灯泡平均寿命是1150小时,标准差为206小时。试比较这两种品牌灯泡的离散程度。 3-* 【例3-10】 解:由于两次考试成绩的均值和标准差不同,每个学生两次考试的成绩不宜直接比较。 利用标准化值进行对比,表明第二次考试的成绩更好一些。 假定某班学生先后两个两次进行了难度不同的综合考试,第一次考试成绩的均值和标准差分别为80分和10分,而第二次考试成绩的均值和标准差分别为70分和7分。张三第一、二次考试的成绩分别为92分和80分,那么全班相比较而言,他哪一次考试的成绩更好呢? 3-* 4. 对称钟形分布中的3σ法则 3σ 法则——关于钟形分布的一个近似的或经验的法则: 变量值落在 [-3σ,+3σ]范围以外的情况极为少见。因此通常将落在区间[-3σ,+3σ]之外的数据称为异常数据或称为离群点。 x 99.73% 68.27% 95.45% 3-* 四、离散系数 前面的各变异指标都是有计量单位的,它们的数值大小不仅取决于数据的离散程度,还要受数据本身水平高低和计量单位的影响。 对不同变量(或不同数据组)的离散程度进行比较时,只有当它们的平均水平和计量单位都相同时,才能利用上述变异指标来分析;否则,须利用离散系数来比较它们的离散程度。 例如,哪个变量的差异较大:体重,还是身高? 例如,体重的差异哪个较大:父亲,还是婴儿? 父亲:平均体重=70 kg,标准差=5 kg 婴儿: 5 kg, 1 kg 3-* 离散系数 (变异系数)是极差、四分位差、平均差或标准差等变异指标与算术平均数的比率,以相对数的形式表示变异程度。 将极差与算术平均数对比得到极差系数, 将平均差与算术平均数对比得到平均差系数。 最常用的离散系数是就标准差来计算的,称之为标准差系数: 离散系数大,说明数据的离散程度大,其平均数的代表性就差;反之亦然. 解:两种灯泡平均寿命水平不同,不能直接用标准差比较,须计算标准差系数。 此灯泡标准差系数 另一灯泡标准差系数 3-* 五、异众比率 异众比率是指非众数值的次数之和在总次数中所占比重,其公式为: 主要用于衡量一组数据以众数为分布中心的集中程度,即衡量众数代表一组数据一般水平的代表性。 其值越小,数据集中程度越高,众数代表性越大. 【例3-12】表3-5 规格的异众比率 颜色的异众比率: 3-* 第三节 变量分布的偏度与峰度 一、矩(动差 ) 二、偏度(Skewness) 三、峰度(Kurtosis) 3-* 一、矩(动差 ) 矩(动差 )—— 一系列刻画数据分布特征的指标的统称。 变量值与数值 a 之离差的 K 次方的平均数称为变量 x 关于 a 的K 阶矩,即: K 阶原点矩(当a = 0 时)是数据的K次方的平均数. 一阶原点矩即算术平均数; 二阶原点矩即平方平均数。 K 阶中心矩矩(当a =均值 时)是以均值为中心计算的离差 K 次方的平均数,记为 。 k=1时,称为一阶中心矩,它恒等于0,即 m1=0; k=2时,称为二阶中心矩,也就是方差,即m2=σ2。 3-* 二、偏度(Skewness) 偏度——指数据分布的不对称程度或偏斜程度。 以 对称分布 为标准来区分 偏态分布又分左偏(负偏)和右偏(正偏). 左偏分布(负偏) 右偏分布(正偏) 3-* 偏态的测度方法 -3 0 +3 极左偏态 对称分布 极右偏态 一般有: 数据分布对称时,均值、中位数、众数三者相等。 分布是偏态时,三者不相等;偏态越严重,三者 差距越大。 (一)由均值与众数(中位数)之间的关系求偏态系数: 3-* (二)由三个四分位数之间的关系求偏态系数 值域:-1? Sk ? 1 极左偏态 对称分布 极右偏态 -1

文档评论(0)

kehan123 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档