语料库常用统计方法 .doc

下载文档 降价啦

155
0
约5.29千字
约 12页
2015-08-10 发布于河南
举报
版权申诉
保障服务

语料库常用统计方法 .doc

1、本文档共12页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

语料库常用统计方法 .doc

3.5语料库常用统计方法第3章前几节对语料库应用中的几种主要技术做了介绍。通过语料检索、词表和主题词表的生成，可以得到一定数量的句子、词汇或结构。为能更好说明得结果的意义，常常需要对它们加以统计学分析。本章主要介绍语料分析中的常用统计方法。 3.5.1 语料库与统计方法介绍相关统计方法之前，首先需要了解为什么语料库应用中需要统计方法。在2.1节文本采集时，文本或话构成了最终的语料库样本。这些样本是通过一定的抽样方法获得的。研究中，我们需要描述这些样本的出现和分布情况。此外，我们还经常需要观察语言项目之间在一定语境中共同出现（简称共现）的概率；以及观察某个（些）语言项目在不同文本之间出现多少的差异性。，几乎所有统计方法都可以用于语料库分析。本只择其中一些常用方法做一介绍。 3.5.2 频数标准化基本原理通常语料检索、词表生成结果中都会报告频数（frequency, freq或raw frequency）。那么某词（如many）在某语料库中出现频数为100次说明什么呢？这个词在另一个语料库中出现频数为105次，是否可以说many在第二个语料库中呢？显然，不能因为105大于100，就认定many在第二个语料库中更常用。这里大家很容易想到，两个语料库的大小相同。按照通常的思维，我们可以算出many在两个语料库中的出现百分比，这样就可比了。这种情况下，我们是将many在两个语料库中的出现频数归到一个共同基数100，即每100词中出现多少个many。这里通过百分比得到的频率即是一种标准化频率。有些文献中标准化频率也称归一频率或标称频率，即基于一个统一基准得出的频率。实例及操作频数标准化，首先需要用某个（些）检索项的实际观察频数（原始频数，raw frequency）除以总体频数（通常为文本或语料库的总数），这样得到每一个单词里会出现该检索项多少次。我们通常在此基础上乘以1千1万1百万得到平均每千（万、百万）词的出现频率。即：（注：观测频数即检索词项实际出现的次数；总体频数即语料库的大小或总形符数。）例如，more在中国学生的作文里出现251次，在英语母语者语料中出现475次。两个库的大小分别为37,655词次和174,676词次。我们可以根据上面的公式很容易计算出251和475对应的标准化频率。另外，我们还可以利用Excel或SPSS等工具来计算标准化频率。比如，可以将实际观察频数和语料库如图3.5.1输入相应的单元格，然后在C1单元格里输入=(A1/B1)*1000即可得到中国学生每千词使用more约为6.67次。要得到母语者more使用的每千词频率，只需点击C1单元格，光标移至单元格右下角直至光标变为黑+时，按住鼠标左键，顺势下拉至C2格即可得到母语者每千词使用more的次数约为2.72次。如有更多频数数据需要标准化处理，可依同样方法求得。图3.5.1 频数标准化 3.5.3 差异检验上节，我们通过将频数归到一个共同的基数，从而可以对不同频数加以比较。然而，在统计学中，常常需要对参与比较的数据之间的差异是否显著性加以综合检验。在语料库数据分析中，最常用的是卡方检验（chi-square或χ2）和对数似然比（loglikelihood ratio，常简写为LL）。两种检验方法的作用和实际操作类似，以下我们重点讲解卡方检验。这两种检验方法也可以用作搭配强度计算。基本原理与频数标准化不同，卡方检验除了考虑到某个检索项在两个不同语料库中的出现频数和语料库大小外，还考虑到检索项在语料库不出现的情况。例如，在1000词的文本中the出现50次，那么它不出现的情况就是余下的950次。类似的频数数据，我们用到的是2×2连列表（contingency table）方法的卡方检验。在统计学上，综合该检索项在两个语料库中出现和不出现的情况，统计学家提出了该检索项理论上的预期频数，其算法是： 2×2连列表语料库A 语料库B a c b d a +b c + d 合计 a +c b + d a +b + c + d 其中： a = 检索项X在语料库A中的实际频数 b = 检索项X在语料库A中的不出现的频数 c = 检索项X在语料库B中的实际频数 d = 检索项X在语料库B中的不出现的频数 N = a + b +c + d = 各项频数总和，即两个语料库累计大小而卡方检验的基本公式为：卡方检验的具体计算公式为： = 实例及操作有两个语料库，一个为口语语料库，总词数为1,714,443，另一个为书面语语料库，总词数2,593,452。其中填充停顿词er分别出现9589次和9307次。1,714,443和Corpus 2的总字数2,593,452。然后，在主体数据表框中Freq in Corpus 1和Freq