- 1、本文档共62页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第 3 章 数据的图表展示 学习目标 了解数据预处理的内容和目的 掌握分类和顺序数据的整理与显示方法 掌握数值型数据的整理与显示方法 用Excel作频数分布表和图形 合理使用图表 3.1 数据的预处理 数据审核 适用性审核、时效性审核 完整性审核、准确性审核 数据筛选 找出符合条件的数据 数据排序 升序和降序 寻找数据的基本特征 数据透视 按需要汇总 3.2 数据的整理与显示(基本问题) 要弄清所面对的数据类型 不同类型的数据,采取不同的处理方式和方法 对分类数据和顺序数据主要是作分类整理 对数值型数据则主要是作分组整理 适合于低层次数据的整理和显示方法也适合于高层次的数据;但适合于高层次数据的整理和显示方法并不适合于低层次的数据 品质数据的图表描述 3.2.1分类数据的整理与图示 分类数据整理—频数分布表 (例题分析) 分类数据整理—频数分布表 2 分类数据的图示—条形图 (例题分析) 3 分类数据的图示—对比条形图(side-by-side bar chart ) 分类变量在不同时间或不同空间上有多个取值 对比分类变量的取值在不同时间或不同空间上的差异或变化趋势 4 分类数据的图示—帕累托图(pareto chart) 按各类别数据出现的频数多少排序后绘制的柱形图 主要用于展示分类数据的分布 5 分类数据的图示—饼图 (例题分析) 3.2.2顺序数据的整理与图示(可计算的统计量) 1. 累积频数(cumulative frequencies):各类别频数的逐级累加 2. 累积频率(cumulative percentages):各类别频率(百分比)的逐级累加 顺序数据的频数分布表(例题分析) 顺序数据的图示—累计频数分布图 (例题分析) 数值型数据的累计频率 环形图(doughnut chart) 3.3 数值型数据的整理与展示 数值型数据的图表描述 单变量值分组(要点) 1. 将一个变量值作为一组 2. 适合于离散变量 3. 适合于变量值较少的情况 某厂工人日产量分布表(单项数列) 组距分组 (要点) 将变量值的一个区间作为一组 适合于连续变量 适合于变量值较多的情况 需要遵循“不重不漏”的原则 可采用等距分组,也可采用不等距分组 组距分组(步骤) 确定组数:组数的确定应以能够显示数据的分布特征和规律为目的。在实际分组时,组数一般为5?K ?15 确定组距:组距(Class Width)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即 组距=( 最大值 - 最小值)÷ 组数 统计出各组的频数并整理成频数分布表 组距分组(几个概念) 1. 下限(lower limit) :一个组的最小值 2. 上限(upper limit) :一个组的最大值 3. 组距(class width) :上限与下限之差 4. 组中值(class midpoint) :下限与上限之间的中点值 频数分布表的编制(例题分析) 等距分组表(上下组限重叠) 等距分组表(上下组限间断) 等距分组表(使用开口组) 数值型数据的图示 分组数据—直方图(histogram) 在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图 本质上是用矩形的面积来表示频数分布 分组数据—直方图(直方图与条形图的区别) 条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的 直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义 直方图的各矩形通常是连续排列,条形图则是分开排列 条形图主要用于展示分类数据,直方图则主要用于展示数值型数据 分组数据—折线图(frequency polygon) 数值型数据的图示 未分组数据—茎叶图(stem-and-leaf display) 用于显示未分组的原始数据的分布 由“茎”和“叶”两部分构成,其图形是由数字组成的 以该组数据的高位数值作树茎,低位数字作树叶 树叶上只保留最后一位数字 茎叶图类似于横置的直方图,但又有区别 直方图可观察一组数据的分布状况,但没有给出具体的数值 茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息 直方图适用于大批量数据,茎叶图适用于小批量数据 未分组数据—茎叶图(例题分析) 未分组数据—箱线图(box plot) 用于显示未分组的原始数据的分布 由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成 绘制方法 首先找出一组数据的5个特征值,即最大值、最小值、中位数Me和两个四分位数(下四分位数QL和上四分位数QU) 连接两个四分位
文档评论(0)