- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第一章统计数据收集与整理
第一章 统计数据的收集与整理 第一节 总体与样本 1. 什么是生物统计学? 2. 生物统计学的一些重要术语 3. 本课程的主线 1.什么是生物统计学 生物统计学(Biostatistics)是数理统计学的原理和方法在生物科学研究中的应用,是用统计学方法分析和解释生物界各种现象与数量资料的一门学科 生物统计学的主要研究内容: (1)如何根据生物学研究的目的合理地调查或进行试验设计 (2)如何科学地整理、分析所收集来的资料 2. 生物统计学的一些重要术语 2.1 总体与样本(Population and Sample) 总体的两个特征: 总体的这两个特征给科学研究带来了难度。 如何克服? 2.2 随机抽样(Random Sampling) 例一. 如何从2000名学生中获得n=20的随机样本? 首先将2000名学生编号:1,2,3,…,2000。 3. 本书的主线 本书的主线是围绕样本、总体以及如何从样本推断总体来展开的 第二节 数据类型及频数(率)分布 数据类型 用图和表对样本数据进行定性归纳:频数表和频数图 1. 数据类型:连续型数据和离散型数据 2. 用图和表对样本数据进行定性归纳:频数表和频数图 2.1 离散型数据频数表和频数图的绘制 频数(率)图是频数(率)的图形表示: 2.2 连续型数据频数表和频数图的绘制 解:通过以下步骤进行: 连续型数据频数直方图的绘制: 首先得到频数表,然后以组界为横坐标,以频数为纵坐标作直方图。 其它的统计图:请参考课本 第三节 样本的几个特征数 这节里,我们定量地研究样本数据地特征。 1. 平均数 平均数主要包括有算术平均数(以后简称为平均数)、中位数、众数等。 (一)直接法:主要用于未经分组资料平均数的计算。此时样本含量往往较小,如n≤30。 求和号“∑”以后经常用到,这里提醒以下它的常用的三个运算法则(高中内容): 例一,某种公牛站测得10头成年公牛的体重分别为500,520,535,560,585,600,480,510,505,490(kg),求其平均体重。 (一)加权法:主要用于样本含量大且已经分组的资料(或称频数资料)平均数的计算。 例二,根据本章第二节例二得到的120头母羊体重资料的频数表,计算这个样本的平均数。 2. 标准差 标准差(standard deviation)用于衡量一个样本数据的变异程度。 讨论: 但由于离均差平方和常随样本的大小而改变,为了消除样本大小的影响,应将离均差平方和除以样本容量n。严格的统计学证明显示(课本57页):离均差平方和除以n-1时性质最好。 2.1 标准差的计算 例四,计算10只辽宁绒山羊产绒量:450,450,500,500,500,550,550,550,600,650(g)的标准差。 2.2 已分组资料(频数资料)标准差的计算 例五,根据本章第二节例二得到的120头母羊体重资料的频数表,计算这个样本的标准差。 解: 2.3 标准差的性质 2.4 利用标准差查找资料的不寻常值 4.变异系数(CV) 变异系数是衡量资料变异程度的另一指标。它与标准差的不同之处是,变异系数用于两个或多个资料的变异程度的比较时。 例六,假设有两个小麦品种A和B,它们株高的平均数和标准差分别为 A=120±5.0 B=70±4.0问哪个小麦品种较为整齐? 1.2 中位数 (median) 将样本内所有观测值从小到大排列,位于中间的那个值,称为中位数。 中位数的计算方法:首先将样本从小到大排列 (1)样本容量n为奇数时,中位数即为位于中间位置的数 (2)样本容量n为偶数时,中位数是位于中间位置上的两个数的平均值 例三,求下面两个样本的中位数 (1)7只家兔从发病到死亡的日期分别为4,15,12,8,8,6,10 (2)某犬场发生瘟热,观察得10只仔犬从发现症状到死亡的天数分别为7,8,8,8,11,12,12,13,14,14 1.3 众数 (mode) 样本中出现次数最多的那个值或对于分组资料而言频数最多哪组的组中值,称为众数。 例如,例三(1)中众数为8,(2)中众数为8。 1.4 算术平均数、中位数和众数的比较 算术平均数优于中位数和众数(课本85页上有理论说明),因而被广泛使用 中位数和众数在描述分布极不对称的数据的平均数时有一定的优势。 假设有一样本A:1,4,5,5,10,如何衡量数据间的变异程度? 相对于另一平均数同样为5的样本B:4,5,5,5,6,样本A的变异程度明显大,如何定量地说明? 思考一个问题 总和 10 5 5 4 1 0 5 0 0 -1 -4 42 25 0 0 1 16 但如何基于离差构造一个衡量样本总变异性的量化的指标呢? 可以证明,公式(*)和(**)是等同的。 第一种方法:直接法 284
文档评论(0)