样本数据特征的初步分析.pptVIP

  1. 1、本文档共72页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
样本数据特征的初步分析

第三章 样本数据特征的初步分析 3.1 数据的预处理 数据审核 检查数据中的错误 数据筛选 找出符合条件的数据 数据排序 升序和降序 寻找数据的基本特征 数据审核 原始数据 应调查的单位或个体是否有遗漏 所有的调查项目或变量是否填写齐全 数据是否真实反映实际情况,内容是否符合实际 数据是否有错误,计算是否正确等 间接数据 弄清楚数据的来源、数据的口径以及有关的背景材料 确定数据是否符合自己分析研究的需要 尽可能使用最新的数据 确认是否有必要做进一步的加工整理 数据筛选 数据排序 按一定顺序将数据排列,以发现一些明显的特征或趋势,找到解决问题的线索 排序有助于对数据检查纠错,以及为重新归类或分组等提供依据 在某些场合,排序本身就是分析的目的之一 排序可借助于计算机完成 3.2 频次与频率 频次(Frequence) 在同一个数据集合中,同一个数据(样本值)出现的次数 频率(Percentage) 某样本值的频率=该样本值出现的频次/n 从某城市抽出来的30个商店中,某商品的价格数据 某单位16人受教育程度 表3.1 某单位职工受教育的结构 家庭家具的基色调的抽样调查结果 表3.2 家庭家具的基色调的抽样调查结果 统计表的设计 4个主要部分:表头、行标题、列标题和数字资料 表中的上下两条横线一般用粗线,其他线用细线 通常情况下,统计表的左右两边不封口 表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一 对于没有数字的表格单元,一般用“—”表示 必要时可在表的下方加上注释 3.3 观察数据的图形方法 条形图 饼图 面积图 线图 直方图 茎叶图 箱形图、散点图、正态概率分布图 条形图(Bar Chart) 用直条的长短来表示数据的频次或频率 简单条形图 纵轴为频率 纵轴为累计百分比 饼图 用一个圆来表现百分比构成,可根据圆中各个扇形面积的大小,来判断某一部分在全部中所占比例的多少 面积图 用面积来表现连续型数据的频数分布资料,面积越大,频数越多,反之亦然 线图 直方图 用于展示分组数据分布的一种图形 用矩形的宽度和高度来表示频数分布 本质上是用矩形的面积来表示频数分布 在直角坐标系中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图 直方图下的总面积等于1 组距分组 将变量值的一个区间作为一组 适合于连续变量 适合于变量值较多的情况 需要遵循“不重不漏”的原则 可采用等距分组,也可采用不等距分组 1. 下限(low limit) :一个组的最小值 2. 上限(upper limit) :一个组的最大值 3. 组距(class width) :上限与下限之差,区间长度 4. 组中值(class midpoint) :下限与上限之间的中点值 某班级男生的身高数据 直方图与条形图的区别 条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的 直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义 直方图的各矩形通常是连续排列,条形图则是分开排列 条形图主要用于展示分类数据,直方图则主要用于展示数值型数据 茎叶图(StemLeaf) 定义 按照某种规则,把所有的样本值分成“茎节”和“叶”两个部分,表达为“茎节.叶”的形式 如规定“茎节”的宽度为100, 则样本数据123的“茎节.叶”表达方式就是1.23 “茎节”末位上的1所代表的实际值,就是“茎节”的宽度 原则 确定宽度的原则:样本数据集合中的“茎节”必须是有变化的 茎叶图的作法 某班级男生的身高(cm) 频数 茎 叶 4 16 . 0358 11 17 . 01255667788 6 18 . 012356 1 19 . 0 由“茎”和“叶”两部分构成,其图形是由数字组成的 以该组数据的高位数值作树茎,低位数字作树叶 茎叶图类似于横置的直方图,但又有区别 直方图可观察一组数据的分布状况,但没有给出具体的数值 茎叶图

文档评论(0)

panguoxiang + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档