语言统计学 全套课件(共十二章全).PPT

  1. 1、本文档共289页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第二章 数据的初步整理 ——统计图表 第一节 范畴型数据的整理 第二节 数值型数据的整理 一、原始数据 二、次数分布表 三、次数分布图 第一节  范畴型数据的整理 在语言研究中 经常要把研究对象(人、反应、语言现象等)按某种标准分成相互排斥的类或范(或者根据多种标准交叉分类),这类数据叫做范畴型数据(见第一章“称名变量”)。对于范畴型数据的整理,主要是进行分类并计算出每一类的观察次数和相对次数(即在总次数中所占的百分比),最后以表和条线图的形式表示出来。 第二节  数值型数据的整理 语言研究中更经常遇到的是数值型数据,譬如考试分数、句子阅读时间、每句单词数等。如果数据量很小(譬如只有几个数值),把它列举出来即可,而不需进行任何整理,但是对于数量较大的数据,则必须利用图表进行初步整理,才能更易看出其中带有规律性的特点,尤其是数据中各数值的分布情况,譬如数据的集中趋势及离中趋势(详细讨论见第三章),即数据的典型数值以及数值之间的差异程度。 一、原始数据 下面一组数据为一篇英语阅读材料中100个句子的长度数据(以音节数表示): 二、次数分布表 尽管通过排序,数据的条理性有所提高,但是表2.2 (b) 仍然不够简明,不能做到一目了然。从表中可以看出,数据中数值出现的次数或频率是不同的,有的只出现一次,而大部分是重复出现的,如果把重复出现的数值在表中只列举一次,随后标明其出现的次数,就可以把数据进一步压缩,使其更加条理化。这样的表称为次数分布表。 1.未分组与分组次数分布表 次数分布表示数据的散布情况,而次数分布表则是对数据进行初步整理的重要手段,它能较为直观地表示出数据的分布情况,使人们得以大体上了解数据的平均水平和差异情况等。一般来讲,次数分布表的最左边一列为各个数值,接下来为登记次数,其次为各数值出现的次数。上述句子长度数据的次数分布表如下: 2.编制分组次数分布表的方法 编制分组次数分布表的关键是确定组距和组数。具体方法如下: (1)求全距或两极差:全距是指一组数据中最大数值与最小数值之差,因此,只要在数据中找出最大数值与最小数值,然后从前者减去后者,即得全距。 (2)求组距:组距也叫做分组区间,指每组中最高数值(成为“上限”)与最低数值(成为“下限”)之间的距离,常用符号i表示,为了便于计算分组区间和组中点。各组组距应尽量相等。常用组距一般为2,3,5,10等,但最好取单数,这样便于定组中点。为了能确定一个最佳的组数,当数据的总体分布为正态时,可以用下面的公式计算 三、次数分布图 如果用统计图来表示数据的次数分布,则更加直观清楚。比较常用的统计图有次数分布直方图和次数分布多边图。这两种图都是用面积来表示数据的分布。 1.次数分布直方图 分组数据的次数分布直方图的绘制方法如下: (1)画一个直角坐标系,在横坐标上标明各分组区间,在纵坐标上标出次数。分组区间一般有两种标示方法:一种是标出各组的下限;另一种是标出各组的组中点。 小 结 如前所述,原始实验数据往往杂乱无章,如果不加以适当的整理,大量有份值的信息就会被掩盖起来,同时也无法进行进一步的统计分析,这样的数据是说明不了什么问题的。因而,统计分析的第一项重要工作就是对原始数据进行初步整理、归纳和分类,使其最突出、最重要的特征得以显现出来。本章介绍了在语言研究中对数据进行整理压缩的常用图表的编制方法和注意事项。 第三章集中趋势与集中量数 第一节 平均数算术 1.平均数 2.加权平均数 第二节 中数 第三节众数 1.测量水平 2.灵敏程度 3.稳定程度 4.信息容量 5.代数运算 6.极端数值 7.数据分布 第一节 平均数 平均数有算术平均数、集合平均数、加权平均数等几种。由于算术平均数最为常用,因此在没有引起误解的情况下,通常用“平均数”来指算术平均数。 算术平均数 算术平均数或平均数,一般用符号 ( 读作“X杠”,表示平均数是由变量X计算而来)或M表示。 算术平均数的计算有以下几种情况: 1.根据未分组数据计算平均数 方法是:把数据中的所有数值累加,在初一数值的个数。用公式表示如下 2.根据次数分布表球平均值 不难看出,直接用原始数据计算平均数很费时间,当数据量很大时尤其如此。其实,上足数据中有很多数值时重复出现的,因此我们可以把每个数值与其出现的次数相乘(没有重复的数值则乘1,结果即该数值本身),然后再累加,最后初一总次数(数值的个数)、就能得到平均数。这一方法显然要简捷一些。用公式表达如下: 3.根据分组次数分布表计算平均数 此外,还可以利用分组次数分布表计算数据的算术平方数。方法是:先用每组的组中点乘以该组的次数,

文档评论(0)

别样风华 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档