由频率分布直方图估计样本数据特征误差探究.docxVIP

由频率分布直方图估计样本数据特征误差探究.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
由频率分布直方图估计样本数据特征误差探究

附件一:中学生数学小论文封面?参加2015年南安市中学生数学小论文评选?论文题目:?由频率分布直方图估计样本数据特征误差探究? 学 校:?南安新营中学????组别(初中/高中):?高中 ?班 级:?高一年一班??学生姓名:?李碧真???指导教师:?黄文宪??,联系电话(手机): 写作完成日期:?2015?0405 ??(内页不准署作者与指导教师姓名及所在学校) 由频率分布直方图估计样本数据特征误差探究一、问题背景,确定用水标准人教A版高中数学必修3第二章统计,第二节《2.2 用样本估计总体》中,为了便于相关统计知识的学习说明,教材以设计居民生活用水标准a这一实际问题为导引,通过对所抽取100个居民用水数据的处理展开,得到了样本数据的频率分步表及频率分布直方图。并给出了如何由频率分布直方图估计众数、中位数及平均数的方法。具体如下:某市政府为了节约生活用水,计划在本市试行居民生活用水定额管理,即确定一个居民月用水量标准a,用水量不超过a的部分按平价收费,超出a的部分按议价收费。如果希望大部分居民的日常生活不受影响,那么标准a定为多少比较合理呢?为了确定一个较为合理的标准a,必须先了解全市居民日常用水量的分布情况。由于城市住户较多,通常采用抽样调查的方式,通过分析样本数据来估计全市居民用水量的分布情况。假设通过抽样,获得了100位居民某年的月均用水量(单位:t):(如下表2-1) 表2-1取得样本数据之后,经过求极差,决定组距与组数,将数据分组,最终列出频率分布表(如下表2-2)及画出频率分布直方图(如下右图1所示)。 表2-2 图 1 图2二、问题呈现,特征数有误差由图1及表2-2,教科书给出了如何由频率分布直方图(或频率分布表)估计样本数据的众数、中位数及平均数,从而对总体的特征数据进行估计的方法。众数:取最高矩形(频率最高组)的中点。由图2可得出月均用水量的众数的估计值是2.25t。 图3中位数:在频率分布直方图中,中位数的左边和右边的直方图的面积应该相等,由此可以估计中位数的值。如图3中的虚线代表居民月均用水量的中位数的估计值,其左边的直方图的面积代表着50个单位,右边的直方图的面积代表着50个单位。虚线处的数据值为2.02。即居民月均用水量的中位数估计值是2.02 t。平均数:平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和,即。居民月用水量的平均数的估计值是2.02 t。但由表2-1中的100个样本数据直接计算所得的众数是2.3,中位数是2.0,平均数是1.973。对比两种计算方法,发现所得的数据均有所误差。当然,这两种方所得的数据误差在居民月用水量的评估上属于可接受范围。但问题也来了,用频率分布直方图所估计的三个特征数据与由样本数据直接计算的误差会有多大,是否在允许范围内,该误差有没有可能大到影响我们对总体特征数据的判断?三、问题分析,误差范围探究1、众数为了便于说明,以极端情况下的样本数据为例进行说明。如下图所示,我们由图表可以估计样本的众数为最高矩形的中点,即为2.25。实际样本数据中的众数为2.3(出现次数为7次),两者误差在可接受范围内。 但如果 [0.5,1)这一组中的8个数据恰好是同一数据,例如样本中在[0.5,1)上的数据碰巧都是0.5。这样,在频率分布直方图不变情况下,样本数据的众数就变成是0.5,这与2.25相差甚大,误差已大到不可接受程度了。虽然这种可能性不大,但并非不可能。何况在其他组[1,1.5),[1.5,2),[2.5,3)中出现众数的可能性就更大了。从这一点来看,利用频率分布直方图来估计众数,可能产生较大误差,误差可达到组距的数倍。因此由频率分布直主图估计众数的可信度会较低。2、中位数由于中位数具有对极端数据的不敏感性,因而能较好的、有效的预防各种错误数据的影响。但也正因为这种不敏感性,使得在由频率分布直方图(或频率分布表)估计中位数时,极易产生误差。在估计中位数时,与其他组数据无关,只与组[2,2.5)中数据有关。如右图4所示,如果在[2,2.5)这一组中的数据都是2.4(与原数年据取相同的精确度),则中位数应是2.4,与由直方图估计出的2.02有较大差异。可以发现,在极端情况下,这种误差可能达到的最大值等于组距。 图43、平均数由频率分布直方图(或频率分布表)估计平均数时,是以频率分布直方图中每个小矩形的面积(各组频率)乘以小矩形底边中点的横坐标(各组平均值)之和。这样估计本是最稳妥的。但当碰到极端情况时,也会产生较大误差。例如,在极端情况下,当各组平均值恰好都是各组的第一个数时,居民用水平均数应为,这与由频率分布直方图所估计数值相差0.25,即误差是组距的一半。由频率分布直方图估计平均数,得出的误差最大为组距的一半

文档评论(0)

159****0071 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档