汉语词汇统计研究.pdfVIP

  • 1
  • 0
  • 约9.04千字
  • 约 6页
  • 2026-02-26 发布于河南
  • 举报

汉语词汇统计研究

王惠

新加坡国立大学中文系

chswh@nus.edu.sg

1、词汇统计概说

词汇统计研究是汉语词汇学的一个重要方面,它可以通过对汉语词汇的各种现象的量的

描述得出质的评价,从而揭示汉语词汇的各种统计特性。这种统计研究可以由人来做,也可

以由计算机来做。

从词汇研究的角度来看,词汇统计研究已有很长的历史了。古印度语言学家在研究婆罗

门教的经典《吠陀经》时,就进行过单词数目的统计。1898年德国学者F.W.Kaeding编制了

世界上第一部频率词典《德语频率词典》。1944年,英国数学家G.U.Yule发表了《文学词语

的统计研究》,大规模地使用概率和统计方法来研究语言。1949年,法国学者R.Michea提出

建立“统计词汇学”。1965年,德国学者R.D.Keil把词频统计与现代统计学结合起来,提出

了“词汇计量学(lexicometric)”。

近40年来,由于语言统计研究中广泛地采用计算机,逐渐改变了传统的手工查频、手工

统计的办法,提高了统计的效率和精度,词汇统计学在国际上有了巨大的发展。

我国也早在20世纪20年代就进行过汉语词汇的统计研究。70年代末以来,我国开始利

用计算机进行汉语词汇的统计研究,除了统计字、词频度以外,还以此为基础建立了汉语的

语料库,编制了各种频率词典、词表,并对现代汉语的常用字、常用词、构词规则等进行了

多方面的研究,取得了可观的成绩。

2、二三十年代的汉语基本词汇统计

2、二三十年代的汉语基本词汇统计

在汉语教学中,究竟应该选择哪些字最先教给学生?哪些字是最常用的?哪些是次常用

的?一个人至少要掌握多少字,才可以完成基本的阅读与写作?所有这些,无疑是语文教学

首先就遇到的问题。因此,编选常用字表给学生学习使用就成了中国语文教育的传统。《千字

文》(1000字)、《三字经》(1248字)是古代汉语教学的重要模式。我国第一个进行现代意义

上的字频统计分析,是语言学家黎锦熙在1922年发表的《国语基本语词的统计研究》(《国

文学会丛刊》1卷1号)。其后,教育学家陈鹤琴根据6类材料55万汉字,历时两三年,选

出了4261常用字,1928年6月完成了《语体文应用字汇》。此外,王文新也编写过《小学分

级字汇研究》一书。1934年,彭仁山对三民主义用词作了一些统计与分析。1946年,四川

省教育科学院颁发了《常用字选》,收录2000个字。

这些统计都是手工查频,材料零星分散,而且统计单位只限于汉字。

3、五六十年代常用字词的统计

①彭仁山,三民主义用词统计与分析,《教育研究》第52期,1934年

1

建国以后为了推广普通话、普及文化知识,首先就要编写识字教材。为了避免汉语教学

大纲设计和教材编写的主观盲目性,提高教学效率,中央人民政府和各省的教育部门都很重

视对汉语常用字词的统计,陆续公布了一些基于频度统计的字表和词表,如:

《常用汉字登记表》(1017字)——1950年9月,中央人民政府教育部社会教育司

《常用字表》(2000字)——1952年6月,中央人民政府教育部

《普通话常用字表》(3000字)——1958年8月,山东省教育厅

《普通话三千常用词表》(3000词)——1962年,中国文字改革委员会

《外国学生用四千词表》(4000词)——1964年,北京语言学院

《常用字表》(3100字)——1965年3月,北京市教育局

本阶段的词汇统计工作基本上都是面向初级的语文教学,常用字的字频手工统计,占了

绝对优势。词频统计刚刚开始,而且规模一般比较小。统计结果也只是用来编写常用字表或

词表,相关的词汇研究尚未真正展开。

4、七八十年代利用计算机进行的大规模词频统计

4、七八十年代利用计算机进行的大规模词频统计

70年代中期以来,随着计算机处理非数值信息技术的日益提高,语言教学与研

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档