- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
汉语词汇统计研究
汉语词汇统计研究
王惠
新加坡国立大学中文系
chswh@nus.edu.sg
1、词汇统计概说
词汇统计研究是汉语词汇学的一个重要方面,它可以通过对汉语词汇的各种现象的量的描述得出质的评价,从而揭示汉语词汇的各种统计特性。这种统计研究可以由人来做,也可以由计算机来做。
从词汇研究的角度来看,词汇统计研究已有很长的历史了。古印度语言学家在研究婆罗门教的经典《吠陀经》时,就进行过单词数目的统计。1898年德国学者F.W.Kaeding编制了世界上第一部频率词典《德语频率词典》。1944年,英国数学家G.U.Yule发表了《文学词语的统计研究》,大规模地使用概率和统计方法来研究语言。1949年,法国学者R.Michea提出建立“统计词汇学”。1965年,德国学者R.D.Keil把词频统计与现代统计学结合起来,提出了“词汇计量学(lexicometric)”。
近40年来,由于语言统计研究中广泛地采用计算机,逐渐改变了传统的手工查频、手工统计的办法,提高了统计的效率和精度,词汇统计学在国际上有了巨大的发展。
我国也早在20世纪20年代就进行过汉语词汇的统计研究。70年代末以来,我国开始利用计算机进行汉语词汇的统计研究,除了统计字、词频度以外,还以此为基础建立了汉语的语料库,编制了各种频率词典、词表,并对现代汉语的常用字、常用词、构词规则等进行了多方面的研究,取得了可观的成绩。
2、二三十年代的汉语基本词汇统计
在汉语教学中,究竟应该选择哪些字最先教给学生?哪些字是最常用的?哪些是次常用的?一个人至少要掌握多少字,才可以完成基本的阅读与写作?所有这些,无疑是语文教学首先就遇到的问题。因此,编选常用字表给学生学习使用就成了中国语文教育的传统。《千字文》(1000字)、《三字经》(1248字)是古代汉语教学的重要模式。我国第一个进行现代意义上的字频统计分析,是语言学家黎锦熙在1922年发表的《国语基本语词的统计研究》(《国文学会丛刊》1卷1号)。其后,教育学家陈鹤琴根据6类材料55万汉字,历时两三年,选出了4261常用字,1928年6月完成了《语体文应用字汇》。此外,王文新也编写过《小学分级字汇研究》一书。1934年,彭仁山对三民主义用词作了一些统计与分析。1946年,四川省教育科学院颁发了《常用字选》,收录2000个字。
这些统计都是手工查频,材料零星分散,而且统计单位只限于汉字。
3、五六十年代常用字词的统计
建国以后为了推广普通话、普及文化知识,首先就要编写识字教材。为了避免汉语教学大纲设计和教材编写的主观盲目性,提高教学效率,中央人民政府和各省的教育部门都很重视对汉语常用字词的统计,陆续公布了一些基于频度统计的字表和词表,如:
《常用汉字登记表》(1017字)——1950年9月,中央人民政府教育部社会教育司
《常用字表》(2000字) ——1952年6月,中央人民政府教育部
《普通话常用字表》(3000字)——1958年8月,山东省教育厅
《普通话三千常用词表》(3000词)——1962年,中国文字改革委员会
《外国学生用四千词表》(4000词)——1964年,北京语言学院
《常用字表》(3100字) ——1965年3月,北京市教育局
本阶段的词汇统计工作基本上都是面向初级的语文教学,常用字的字频手工统计,占了绝对优势。词频统计刚刚开始,而且规模一般比较小。统计结果也只是用来编写常用字表或词表,相关的词汇研究尚未真正展开。
4、 七八十年代利用计算机进行的大规模词频统计
70年代中期以来,随着计算机处理非数值信息技术的日益提高,语言教学与研究中开始利用计算机作为辅助工具。汉语词汇统计也摆脱了传统的手工查频,逐渐采用人机结合的办法,利用计算机进行自动统计分析,提高了统计的效率和规模,而且统计单位也从字扩展到了词。汉语词汇统计研究提高到一个新的水平。
4.1 字频统计
1975~1976年,北京新华印刷厂等19个单位发动了1500名中学生对出版物中的2162万字的材料进行统计,编成《汉字频率表》。这是我国利用手工查频规模最大的一次字频统计。
1976年12月,中国“七四八”工程查频组首次利用计算机对汉字的频度进行统计,根据对2100余万字的语料的统计结果,得出《现代汉字综合使用频度表》,其中包含常用字4152个,为中文信息处理的国家标准GB2312-80《信息交换用汉字编码字符集——基本集》提供了科学的基础数据。
1976年,武汉大学语言自动处理研究组在RD-11计算机上,也曾对《骆驼祥子》进行字频统计,计算出该书总字数为107306个,单字2413个,在一定程度上揭示了该书用字的特点。
1982年11月,国家标准
文档评论(0)