第3章数据的描述.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第三章数据的描述 正如第一章所述,数据可以分为定性数据和定量数据:定性数据是指用文字、符号、语 言等描述的信息;定量数据是指对事物按照某种特征进行具体的数量描述。 在第二章,我们 讨论了收集数据的方法。 数据搜集完成后,我们需要从中分析有用的信息。 从数据文件中可以直接浏览数据, 但 随着数据量的增加,很难只从表面理解其包含的全部意义。 因此,有必要使用其他方法帮助 我们从数据中提取信息,并转化成可利用的形式。描述统计方法就是完成这些工作的有力工 具。数据的描述统计方法通常包括三种: 为数据作合适的统计图; 为数据制作恰当的统计表; 根据数据计算有代表性的数值。 第一节统计图与统计表 一、频数分布与统计分组 频数分布(分布数列, Frequency Distribution )反映的变量的取值在各个组中的分布状 况,是归纳与总结数据的一种重要方式。 依据研究的目的将数据分成若干组, 统计各个组中 数值的个数,就可以得到频数分布。例如,按照考试成绩把学生分为优、良、中、及格、不 及格五个等级,再汇总各组中的学生人数, 就可以得到考试成绩的频数分布。 定性数据和定 量数据的频数分布是绘制很多统计图表的基础。 1.定性数据的频数分布 在这部分,我们利用例 3.1中的普通居民家庭购买笔记本电脑品牌的数据来说明如何构 建和解释定性数据的频数分布问题。 【例3.1] 目前笔记本电脑已经越来越多地进入了普通老百姓的家中,其中,联想、惠 普、三星、华硕和索尼五个品牌受到了普通老百姓的喜爱。 本数据展示了 50个家庭购买这五 种品牌笔记本电脑的样本。 为了构造该数据的频数分布,需要统计每种品牌笔记本电脑的购买次数, 如表3-1所示。 联想出现19次,惠普出现8次,三星出现5次,华硕出现13次,而索尼出现5次。频数分布说 明了在50个家庭购买的笔记本电脑样本中, 5种品牌是如何分布的。从表 3-1可以看出,联想 排在第一位,华硕排在第二位, 惠普排在第三位,三星和索尼并列第四。频数分布也展示了 这5种笔记本电脑在老百姓心目中的受欢迎程度。 表3-1 5种品牌笔记本电脑购买次数的频数分布表 品牌 频数 频率 联想 19 38% 惠普 8 16% 三星 6 12% 华硕 13 26% 索尼 4 8% 合计 50 100% 用每一组的频数除以总的频数 n得到的相对数称为频率,常用百分数表示。也称为相对 频数或百分数频数。表 3-1给出了 5种品牌笔记本电脑购买情况的频数和频率分布。 2定量数据的频数分布 定量数据分组相对于定性数据略为复杂。 定量数据的分组要确定三个要素: 组数、组距 和组限。具体步骤如下。 (1)确定组数 一般来说,定量数据可以分成 5-15或20个组。为了更好地展示数据的变异情况,如果数 据较少,用5或6组就可以;如果数据较多,可以使用较多的组数。另外,我们还可以根据经 验公式确定分组组数,分组组数 K应满足: 2K 2K n,即K 1器 (3-1) 【例3.2】某一个会计师事务所,对其一个包含 20个客户的样本,完成年终审计所需的 天数如下: 12, 15, 20, 22, 14, 14, 15, 27, 21, 18, 19, 18, 22, 33, 16, 18, 17, 23, 28,13。试确定分组的组数。 由于审计天数样本相对较少(n=20),可用5组构建频数。因为 k 1 lg(n)/lg(2) 5.32, 因此,可以确定为5组。 (2) 确定组距 定量数据频数分布的第二步是确定组距。 一般来说,建议每组的组距相同。确定组距的 方法是:先找出定量数据中的最大值和最小值, 根据第一步中确定的组数得到近似组距。 即 近似组距=(数据最大值-数组最小值)/组数 (3-2) 然后将组距确定为大于近似组距的一个整数就可以了。在实际中组距一般为 5或10的倍 数。例如,近似组距为 9.38,可以取整为10,这样以10作为组距在构建频数时更方便。对于 审计天数样本数据,最大值是 33,最小值是12。因为组数为5,所以由式(3-2),可以计算 出近似组距为(33-12)/5=4.2。因此,在频数分布中以 5天作为组距。 (3) 确定组限 组限的选择必须保证每一个数据属于且只属于一组。 下组限是分配到该组的数据的最小 值,上组限是分配到该组的数据的最大值。 在构建定性数据的频数分布时,不需要规定组限, 因为每一个数据会自动落入独立的组中。 而对于定量数据,组限就是必要的,以确定每个数 据的归属。 关于组限的确定有三种情况。 .上下组限间断,互不重叠。例如,对审计天数样本,我们对第一组选择 10天为下组 限、14天为上组限,该组在表 3-2中标记为10?14。最小数据12包含在10?14组。然后,对 下一组选择15天为下组限、19天为上组

文档评论(0)

youbika + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档