- 1、本文档共94页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
[工程科技]第3章 数据的描述
第3章 数据的描述 统计图与统计表 数据集中趋势的数值描述 数据离散程度的数值描述 数据分布的形态 本章要回答的问题 常用的统计图表有哪些?如何绘制和解释其含义? 通常使用哪些数值指标描述数据的特征?如何计算? § 3.1 统计图与统计表 绘制统计图一般都需要先对数据进行统计分组,在得到的频数分布表的基础上制图。 § 3.1.1 统计分组与频数分布 统计分组:就是按照研究目的将数据分成若干组的统计方法。 关键:选择分组变量和划分各组界限 例如按照考试成绩把学生分为优、良、中、及格、不及格。 统计分组的结果是形成频数分布(分布数列,Frequency Distribution)。 频数分布举例 两个构成要素: 各组的分组界限 每组中的次数或频率 通过频数分布表可以发现数据分布的特征。 频数(frequency) :每个组中的数据个数,也称次数。 频率(relative frequency) :频数/总数据个数。 分组方法 单变量值分组 将一个变量值作为一组,适合于离散变量,适合于变量值较少的情况。 例如某学院2008年毕业研究生毕业时发表论文篇数的频数分布表(右表)。 组距分组 将变量值的一个区间作为一组,适合于连续变量,适合于变量值较多的情况。 分组必须遵循“不重不漏”的原则。 分为等距与不等距分组。 各组组距都相等时为等距分组。 为了避免有些组中的频数很少甚至是空白的情况,有时也可以采用不等距(异距)分组。 应用中可能需要把第一组和/或最后一组设为开口组。 组距分组的步骤 1、确定组数:通常为5到15 (20)组。 Sturges 提出的经验公式:分组组数K应满足 组距分组中的基本概念 1、 下 限:一个组的最小可能值 2、 上 限:一个组的最大可能值 3、 组 距:上限与下限之差 4、 组中值:下限与上限之间的中点值,(下限+上限)/2。 等距分组表:上下组限间断 等距分组表(上下组限重叠,上组限不在内) 等距分组表:(使用开口组) 3.1.2 列联表(Contingency table ) 如果对数据同时根据两个变量分组,汇总得到的结果称为列联表。列联表反映的是两个变量的联合分布,可以用来分析两关变量之间的关系。也称为交叉分组表(Cross tabulation)。 列联表一般根据两个定性变量进行编制,如果是定量变量则需要先对单个变量进行分组。 列联表中的数字为交叉单元格中的频数或频率。 以列联表为基础可以对两个变量之间的关系进行多种统计检验。 列联表举例 市场营销专业的男生有10人。 3.1.3 常用统计图 条形图(Bar Chart) 用宽度相同的条形高度或长短来表示数据变动的图形,条形的排列可以横排,也可以纵排。条形图有单式、复式等形式。 圆形图 (Pie Chart) 也叫饼图,它是用圆形及圆内扇形的面积来表示数值大小的图形。主要用于总体内部的结构,各组成部分所占比例等。 直方图(Histogram) 用来反映数量变量的分布状况。在统计分组的基础上,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图。 注意对不等距分组:纵轴必须表示为频数密度 频数密度=频数/组距 (面积之和=总频数) 手工绘制直方图时需要先对数据进行分组;用统计软件作直方图时统计软件可以自动进行分组。 直方图(等距分组) 直方图(不等距分组) 直方图与条形图的异同 都是用来反映数据的分布状况,适用于不同类型的数据。 条形图是用条形的高度表示各类别频数的多少,其宽度(表示类别)则是固定的。 直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义。 直方图的各矩形通常是连续排列,条形图则是分开排列。 折线图 (Frequency polygon) 折线图也称频数多边形图是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉。 折线图的两个终点要与横轴相交,具体的做法是第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴。 组数越多,组据就越小,折线图就越光滑,逐渐形成一条平滑的曲线,这就是频数分布曲线。 审计时间的折线图 茎叶图 (Stem-and-Leaf Display) 主要用于显示未分组的原始数据的分布。由“茎”和“叶”两部分构成,其图形是由数字组成的。 通常以数据的高位数值作树茎,低位数字作树叶,树叶上只保留一位数字。 树叶的竖列要对齐,以计算各组的次数。 原始数据: 24, 26, 24, 21, 27, 27, 30, 41, 32, 38 从小到大排序后的数据: 21, 24, 24,
文档评论(0)