- 1、本文档共37页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第2章 数据资料的整理
第二章 数据资料的整理与特征数 东北农业大学 食品学院 第二章 数据资料的整理与特征数 本章学习目的与要求 1.理解统计常用术语 2.深刻理解不同类型资料的性质并掌握资料的整理方法 3.掌握资料特征数的计算方法 4.掌握异常数据的检出方法 1 常用术语 1.1总体与样本 总体定义: 个体定义: 样 本: 有限总体: 无限总体: 样本容量或样本大小: 小样本: 大样本: 1 常用术语 1 常用术语 1.2参数和统计量 参数:由总体计算的特征数。常用希腊字母表示参数,如用?表示总体平均数,用?表示总体标准差。 统计量:由样本计算的特征数。常用拉丁母表示统计量,如用 表示样本平均数,用S表示总体标准差。 1 常用术语 1.3准确性与精确性 准确性也叫准确度,指在调查或试验中某一实验指标或性状的观测值与其真值接近的程度。 精确性也叫精确度,指调查或试验中同一试验指标或性状的重复观测值彼此接近的程度。 1 常用术语 1.4试验数据误差的来源及分类 随机误差是指在一定条件下,以不可预知的规律变化着的误差,多次试验值得绝对误差时正时负,随机误差的绝对值时大时小。 系统误差是指在一定试验条件下,由某个或某些因素按照某一确定的规律起作用而形成的误差。 过失误差是一种显然与事实不符的误差,没有一定的规律,它主要是由于实验人员粗心大意造成的,如读数错误、记录错误或操作失误等。 1 常用术语 随机误差和系统误差的区别: 随机误差的出现一般具有统计规律,大多服从正态分布,正负误差出现的次数近似相等,因此当试验次数足够多时,由于正负误差的相互抵消,误差的平均值趋于零。 系统误差的大小及其符号在同一试验中使恒定的,或在试验条件下改变时按照某一确定的规律变化。当试验条件一旦确定,系统误差就是一个客观上的恒定值,它不能通过多次试验发现,也不能通过多次试验值得平均值而减小。 2数字资料的性质 2.1数据资料的来源 2数字资料的性质 2数字资料的性质 2. 2 数量性状资料 2数字资料的性质 3 资料的整理 原始资料:获得资料在未整理之前。 3 资料的整理 3 资料的整理 3 资料的整理 3 资料的整理 3 资料的整理 3 资料的整理 3 资料的整理 3 资料的整理 3 资料的整理 3 资料的整理 4 资料的特征数 4 资料的特征数 4 资料的特征数 4 资料的特征数 4 资料的特征数 4 资料的特征数 4 资料的特征数 4 资料的特征数 4 资料的特征数 5 检出异常值的方法 5 检出异常值的方法 5 检出异常值的方法 5 检出异常值的方法 调和平均数 意义 关于速度一类的资料常用调和平均数。 由同一资料计算的算术平均数、几何平均数和调和平均数大小关系是 用于度量资料中各观察值的变异程度的统计量,具有此功能的统计量称为变异数。 变异数 变异数的种类 全距 方差 标准差 变异系数 利用算术平均误差?检查 公式 检查可疑值与平均值之差 。 当分析方法简单,测定次数较多是,若d≥2.5 ?,则将可疑值弃去;反之则保留。 当分析方法繁琐,测定次数少(n=3或4)时,若d ≥4 ?,可疑值弃去,反之保留 实例 某冻兔样品中六六六含量,测得5份额数据(mg/kg):0.112,0.118,0.115,0.119,0.123。请去除可疑数值。 去掉可疑值后 利用标准误差检查 检查可疑值与平均值之差 ,在 之间,则此可疑值是合理的,不应弃去。 其中t值可疑通过查表获得。 Dxion法 本法计算简便,原则上适用于有一个可疑值的情况。将一组数据大小按顺序排成的形式,若怀疑某一个值时,用表可以查到。 Grubbs法 此法用于检查各测定值是否大体上符合正态分布。将n个测定值按大小排列。若怀疑一个测定值时,如怀疑x1,则计算: 怀疑xn时,则计算: 舍弃异常值注意事项 (1)Grubbs法检出率最高,效果最好。 (2)舍弃一个数值时,应三思而后行。 (3)即使所舍弃的数值却属异常值,也应追查其出现的原因,并在报告中声明舍弃的具体数值及舍弃的原因。 (4)若既无舍弃可疑值的充分理由,又不符合统计学舍弃标准,就不应该舍弃。 * 根据研究目的确定的研究对象的全体。 其中的一个研究单位。 依据一定的方法由总体抽取的部分个体组成的集合。 含有无限个体的总体。 含有有限个体的总体。 样本中所包含的个体数目。 n< 30的样本。 n≥30的样本。 随机抽样 指总体中的每一个个体都有相等的机会被抽取组成样本。 随机抽样一定要遵循科学原则 代表性 随机性 可靠性 可比性 1 常用术语 精确度好, 准确度不好 精确度不好, 准确度好 精确度好, 准确度好 生产记录 抽样
文档评论(0)