中国人民大学统计专业课初试题.doc

2007年人大统计专业课初试题 一、(20分)下面是一种零件误差的数据(单位:克): 6.1 4.7 6.5 6.2 7.7 6.4 5.5 7.1 6.1 5.3 5.7 6.1 5.3 4.0 4.8 3.2 3.9 1.9 4.9 3.8 5.3 2.6 5.3 5.5 5.8 2.7 6.8 7.4 5.6 3.3 (1)根据涉及t分布的计算,该数据所代表的总体均值的95%置信区间为(4.637785,5.728882)。请问,若使该置信区间有意义,需要对总体进行何等假定?这种假定能不能用数据证明?是不是该区间以0.95的概率覆盖真实总体均值?如果不是,说出理由及合适的说法。 (2)对于该数据所代表的总体的均值进行检验:零假设为总体均值等于4.8克,备选假设为总体均值大于4.8克。如果进行t检验,需要假定哪些条件?t检验结果为p值等于0.0807。能不能说“在显著性水平为0.05时,接受零假设”?为什么?你的结论是什么? 统计学:假设检验 答:(1)在对总体均值进行区间估计时,需要考虑总体是否为正态分布、总体方差是否已知、用于构造估计量的样本是大样本()还是小样本()等几种情况。 当总体是正态总体,方差已知或非正态总体,大样本时,样本均值的抽样分布为正态分布。 当总体是正态总体,但总体方差未知,而且是小样本时,则需要用样本方差代替总体方差,此时需要用分布来建立总体均值的置信区间。 该题目中所涉及的正是第二种情况,因此若使该置信区间有意义,需要对总体进行正态分布的假定。这种假定是可以用数据证明的。例如可以通过Q-Q图来大致验证这批数据是否来自正态分布的总体。 总体均值95%置信区间,不代表区间(4.637785,5.728882)以0.95的概率覆盖真实总体均值。样本确定,置信区间亦随之确定,就不再是一个随机区间,而是一个确定的区间,这个确定的区间要么包含总体真值,要么不包含总体真值,不存在以某种概率覆盖真实总体均值,所以“该区间以0.95的概率覆盖真实总体均值”这种说法是不对的。 合适的说法:在多次重复抽样构造的多个置信区间中,有95%的置信区间会包含总体真值,而有5%的置信区间则不包含总体真值,(4.637785,5.728882)可能是95%区间中的一个,也可能是5%区间中的一个。 (2)进行检验需要假定的条件,与第一问中使置信区间有意义的假定是相同的,都是假定这批数据是来自正态总体。 p值等于0.0807,不能说“在显著性水平为0.05时,接受零假设”,只能说“在显著性水平为0.05时,样本证据不足以拒绝零假设”,但这并不代表零假设一定是正确的,更不代表我们接受了零假设,只能是我们没有足够的理由拒绝零假设。 p值的含义:在零假设为真的情况下,出现样本结果值或更极端值的概率,它是实际的显著性水平。 二、(20分)一家研究机构想估计在30个网络公司工作的员工每周加班的平均时间,为此进行抽样调查。请回答以下问题: (1)如果对这些员工进行随机电子邮件调查,由答复的邮件所得到的数据是不是简单随机样本?为什么? (2)抽样调查中,说“响应误差总是人们不说实话导致的”对不对?为什么?随机误差是不是可以避免的? (3)这些员工的加班时间是否独立?如果不是,原因可能是什么? 抽样技术:概率抽样与非概率抽样统计学:数据采集 答:(1)简单随机抽样也称纯随机抽样,是从总体中随机地、一个一个地抽取个单元构成样本,在每次抽选中,所有未入样的待选单元入选样本的概率是相等的,这个被抽中的单元就构成了简单随机样本。简单随机样本也可以一次同时从总体中抽出,这时全部可能样本中的每一个样本被抽中的概率也需要相等。 若抽样是放回的,每次都是从个总体单元中随机抽取1个单元,独立重复抽取次,得到个单元组成的样本,叫做放回简单随机抽样。 若抽样是不放回的,每次都是从剩下的总体单元中随机抽取1个单元,相继依次抽取次,得到个单元组成的样本,叫做不放回简单随机抽样。 放回抽样下,抽取过程中的每次抽取都是独立的,但可能使得单元被重复抽到。同一单元被重复抽到,并不能提供更多的信息,所以在实际调查中,更多的采用不放回抽样。 而在本题中,由答复的邮件所得到的数据不是简单随机样本。因为答复与不答复是由受访者个人主观决定的,对调查问题感兴趣的人一般都会积极回答,而对调查问题不感兴趣的人一般会拒绝回答,这两类人的入样概率是不一样的,更不是相等的。对调查问题感兴趣的人的入样概率会偏高。 (2)“响应误差总是人们不说实话导致的”,这种说法是不对的。响应误差是指在调查过程中,由于问题的提问方式、问题所处的位置、访员的影响或受访者自身的原因(诸如理解误差

文档评论(0)

1亿VIP精品文档

相关文档