- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
语言统计第五章 概率与概率分布
第五章 概率与概率分布 第一节 概率的基本概念 一、后验概率 二、先验概率 第二节 随机变量及其概率分布 第三节 正态分布 一 、正态分布的特征 二、正态分布表 三、正态分布表的用法 四、正态分布理论的实际应用 五、检验分布是否为正态的方法 第一节 概率的基本概念 简而言之,概率就是在某种条件下,某个事件出现的可能性。显然,这个事件可能会出现, 也可能不出现, 所以通常称之为 “随机事件” 。 概率可分为两类: “后验概率” 与 “先验概率” 。 一、 后验概率 后验概率(或统计概率)是指通过实际观测,根据在总观测次数中某事件所出现的次数来计算该事件出现的概率,这种概率其实是一个相对频率,是实际概率的估计值。 第二节 随机变量及其概率分布 随机变量是指在实验中受随机(或偶然)因素的影响,其取值无法进行准确预测的变量。譬如,我们要随机选取一些学生,来调查其家庭的人口数, “人口数” 是一个随机变量, 因为它可以取这一个值, 也可以取那一个值, 究竟取哪一个值完全是偶然的, 无法碗切地预测, 这要等到实验 (实际抽取)之后才能得知。我们可以用某种方法对随机变量可取数值的概率分布进行描述,这就是随机变量的概率分布。 第三节 正态分布 正态分布也叫正态曲线,有时也称作高斯分布或高斯曲线。正态分布其实是次数分布的其中一种,但是它在统计学中(尤其是推断统计中)具有特殊的重要性。首先,在自然界、现实生活以及我们的语言研究中,许多现象或特征都是呈正态分布。 就统计工作本身来讲,正态分布具有一些特殊的数学特征,使得我们能够预测总体中多大比例的个体将会在一定范围内取正态分布的变量的某些值,此外,一些重要的差异显著性检验也要求所涉及的变量呈正态分布(见第七章)。 只要在标有A的一列里找到该面积值,其前的数值即是对应的Z值。如果已知的面积在表里没有列出,则用表里与之最接近的面积值。如果不知道该面积是平均数以上还是以下的面积,则查出的Z值可能是正值,也可能是负值。例如: 已知平均数以上的面积A=0.067,Z=0.17(表中面积为0.06749);已知平均数以下的面积A=0.35,Z=-1.04 (表中面积为0.35083) (2)已知正态分布两端的面积值,求该面积的分界点的值。由于表中所给面积为平均数与值之间的面积,因而查表时不能直接用两端的面积,而是要用0.5减去两端的面积,然后再查表求Z值。例如:求分布曲线右端面积为0.025的分界点的值: 0.5 -0.025=0.475,查表得Z=1.96; 求分布曲线左端面积为0.05的分界点的Z值: 0.5 -0.05=0.45,查表得Z=-1.64 (表中面积 为0.44950)。 (3)已知正态曲线下中央部分的面积,求两侧分界点的值。由于分布曲线是对称的,两侧的Z值其实是一样的,只是符号不同而已,所以只查一侧的Z值即可。由于表中列出的只是平均数与一侧Z值之间的面积,所以查表之前,要先用2去除中央部分的面积。例如:求中央部分面积为0.68的两侧分界点的Z值: 0.68/2=0.34,查表得Z=±1.00(表中面积为0.34134). 3.等级评定前确定各等级或档次的人数 我们在按照某种能力指标、考试分数等对学生评定等级或分档时,为了保证各等级人数分布合理,可以利用正态分布的理论,计算出各等级或档次应该包含的人数。 例1 如果100个学生的能力服从正态分布,要把他们分成5个等级(A,B,C,D,E),求每个等级应该包含的人数。 偏态值就是分布的偏刹程度的指标,正值表示分布为正偏态,负值表示分布为负偏态,如果其值为0,则表示分布为正态。峰值表示分布曲线的顶点尖峭的程度,正值表示分布曲线较尖,称“尖峰态”,负值表示分布曲线较平,称为“低峰态”,如果其值为0,则表示分布曲线为正态(见图5.4)计算偏态值与峰值的公式为 方法之四是比较算术平均数、众数与中数。从正态分布的特征可知,在正态分布中这三个数值完全相同,在正偏态分布中,平均数高于中数和众数,而在负偏态分布中,平均数则低于中数和众数,因此通过比较它们的接近程度,就可以知道数据的分布是否呈正态分布。根据三者之间的关系,皮尔逊提出了一个偏态量数公式: 式中 SK —偏态量数 M—算术平均数; Mo—众数; Md—中数。 如果SK
文档评论(0)