第一章 取样与统计推断.ppt

第一章 取样与统计推断

;本课程主要内容: 第一章 取样与统计推断 第二章 方差分析 第三章 回归分析 第四章 协方差分析 第五章 非参数统计;第 一 章; 计算生物学(Calculating Biology)是应用数理统计和多元分析方法与计算机应用相结合以解决生物学中的数据处理和计算分析的一门学科。 计算生物学的核心问题是研究总体(population)和样本(sample)之间的关系。因此,总体和样本是计算生物学中的两个最基本概念。 ; 总体是我们研究的全部对象,可分为无限总体(infinite population) 和有限总体(finite population)。例如,我们要研究在某种生境下生长的一种植物的株高、密度、盖度及其遗传特征,因为无法估计出这种生境下生长的这一植物的数量,可以认为这一总体是无限的。如果我们要调查一所学校今年新生的身高、体重,这一总体则是有限的。计算生物学中所遇到的总体多数都是无限总体,而构成总体的每个成员称为个体(individual)。 ; 样本是总体的一部分,其个体的数目称为样本含量(sample size)。 通过合理地取样得到样本,而取样的目的在于通过对样本的研究,来估算、推断其总体。因此,取样(sampling)就成了生物学研究中一项最基础的工作。因为无论在分子、细胞或个体水平,还是在种群或群落水平,要逐个计量和观察,几乎是不可能的,通常只能采取统计学的取样。取样是生物学观察和研究最经济、最科学的一种方法手段。取样方法必须正确,否则将导致错误的判断。 ;第一节 取 样 ?一、取样的一般原则 取样务必使总体中预先确定的样本具有真实的代表性,要求样本应能在最大程度上代表总体的情况。在从总体中抽取样本时,应做到总体中的每一个个体被抽中的机会都必须一样,不能带有任何偏见。我们需要的样本应该是一个总体的缩影。; 为了达到这个目的,一方面要求取样的人在取样过程中不能有任何主观意识,必须随机抽取样本;另一方面,取样应以总体性质为依据,应用最经济的方式,得到最丰富的信息为目的。显然,由于取样同时受研究时间、经费和人力等的限制,没有一种方法能够普遍地使用,因为任何方法的有效性都取决于研究的对象。所以,我们在取样时,需考虑的以下两个问题。;1. 环境判识:环境通常限定在相关的同类空间,可能直接与生物(或其一部分)有关,这些生物可能在样本内也可能在样本之外。通过环境的判识才能对抽样做出合适的决策。例如要考虑:样本分布呈随机分布、有规律分布还是两者的联合分布,样本应是1个、2个还是3个等级, 样本的含量是否合适(因为样本的含量越大越有代表性,但太大的样本的收集和研究都很困难)等等。 ;2. 取样技术:取样技术指在取样过程中所观察记录生物的技巧。记录的资料可能是样本内的绝对数量,也可能在样本内只记录“有”或“无”。这些取样技术都会直接影响到统计结果的可靠性。 在用计算生物学方法进行研究时,要使样本满足以下几个条件: ① 样本的抽取方法应科学、合理; ② 选取的样本含量应合适; ③ 抽取的一个样本的数据必须来自同一总体; ④ 样本应是随机选取。; 二、样本平均数(sample mean) 平均数的目的,是为了给出一个数,并用这个数来描述由许多数组成的样本。如果样本中所有的数都是一样的,那么平均数就是这个数。若样本中的数不一样,则针对不同的目的可使用不同的平均。在生物学研究中,运用最多的是算术平均数(arithmetic mean)。样品算术平均数的符号是χ,读做“χ 杠”或“杠χ”。 若用χ1,χ2,χ3,…,χn表示组成样本的所有数,则它们的算术平均数为:;或简写为: ;算术平均数有以下几个基本特性: ①数算术平均数的计算与样本的每个值都有关,它的大小受每个值的影响。 ②如果每个 ci 都加上相同的数A,则平均数亦应加上A。 ③如果每个ci 都乘以相同的数k,则平均数亦应乘以k。 ④如果c1是n1个数的平均数,c2是n2个数的平均数,那么全部n1+n2个数的算术平均数是加权平均数(weighted mean)。 ;1. 非频数资料的平均数计算 使用(1·1)式进行计算。 例1·1 小麦单穗粒数为:25、27、27、23、24、25、26、25、23粒,共测量9 穗,求其平均数。 解 将以上各数代入(1·2)式;得:; 例1·2 将例1·1中的每个数都减去一个

文档评论(0)

1亿VIP精品文档

相关文档