- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
汉语词汇统计研究汉语词汇统计研究
王惠
新加坡国立大学中文系
chswh@nus.edu.sg
1、词汇统计概说
词汇统计研究是汉语词汇学的一个重要方面,它可以通过对汉语词汇的各种现象的量的
描述得出质的评价,从而揭示汉语词汇的各种统计特性。这种统计研究可以由人来做,也可
以由计算机来做。
从词汇研究的角度来看,词汇统计研究已有很长的历史了。古印度语言学家在研究婆罗
门教的经典《吠陀经》时,就进行过单词数目的统计。1898年德国学者 F.W.Kaeding 编制了
世界上第一部频率词典《德语频率词典》。1944年,英国数学家G.U.Yule 发表了《文学词语
的统计研究》,大规模地使用概率和统计方法来研究语言。1949 年,法国学者R.Michea 提出
建立“统计词汇学”。1965年,德国学者R.D.Keil 把词频统计与现代统计学结合起来,提出
了“词汇计量学(lexicometric)”。
近 40 年来,由于语言统计研究中广泛地采用计算机,逐渐改变了传统的手工查频、手工
统计的办法,提高了统计的效率和精度,词汇统计学在国际上有了巨大的发展。
我国也早在 20 世纪 20 年代就进行过汉语词汇的统计研究。70 年代末以来,我国开始利
用计算机进行汉语词汇的统计研究,除了统计字、词频度以外,还以此为基础建立了汉语的
语料库,编制了各种频率词典、词表,并对现代汉语的常用字、常用词、构词规则等进行了
多方面的研究,取得了可观的成绩。
2、二三十年代的汉语基本词汇统计
2、二三十年代的汉语基本词汇统计
在汉语教学中,究竟应该选择哪些字最先教给学生?哪些字是最常用的?哪些是次常用
的?一个人至少要掌握多少字,才可以完成基本的阅读与写作?所有这些,无疑是语文教学
首先就遇到的问题。因此,编选常用字表给学生学习使用就成了中国语文教育的传统。《千字
文》(1000字)、《三字经》(1248 字)是古代汉语教学的重要模式。我国第一个进行现代意义
上的字频统计分析,是语言学家黎锦熙在 1922年发表的《国语基本语词的统计研究》(《国
文学会丛刊》1 卷 1 号)。其后,教育学家陈鹤琴根据 6 类材料 55 万汉字,历时两三年,选
出了 4261 常用字,1928年 6 月完成了《语体文应用字汇》。此外,王文新也编写过《小学分
①
级字汇研究》一书。1934年,彭仁山对三民主义用词作了一些统计与分析 。1946年,四川
省教育科学院颁发了《常用字选》,收录 2000 个字。
这些统计都是手工查频,材料零星分散,而且统计单位只限于汉字。
3、五六十年代常用字词的统计
①
彭仁山,三民主义用词统计与分析,《教育研究》第52 期,1934 年
1
建国以后为了推广普通话、普及文化知识,首先就要编写识字教材。为了避免汉语教学
大纲设计和教材编写的主观盲目性,提高教学效率,中央人民政府和各省的教育部门都很重
视对汉语常用字词的统计,陆续公布了一些基于频度统计的字表和词表,如:
《常用汉字登记表》(1017 字)——1950年 9 月,中央人民政府教育部社会教育司
《常用字表》(2000 字) ——1952年 6 月,中央人民政府教育部
《普通话常用字表》(3000 字)——1958年 8 月,山东省教育厅
《普通话三千常用词表》(3000 词)——1962年,中国文字改革委员会
《外国学生用四千词表》(4000 词)——1964年,北京语言学院
《常用字表》(3100 字) ——1965年 3 月,北京市教育局
本阶段的词汇统计工作基本上都是面向初级的语文教学,常用字的字频手工统计,占了
绝对优势。词频统计刚刚开始,而且规模一般比较小。统计结果也只是用来编写常用字表或
词表,相关的词汇研究尚未真正展开。
4、 七八十年代利用计算机进行的大规模词频统计
4、 七八十年代利用计算机进行的大规模词频统计
70 年代中期以来,随着计算机处理非数值信息技术的日益提高,语言教学与研究中开始
您可能关注的文档
- 汉字字频统计修订版.pdf
- 汉字学概论00820史上最强笔记.pdf
- 汉字库发展简介.pdf
- 汉字的标准化修订版.pdf
- 现代汉字标准化和规范化新.pdf
- 现代汉语单字频率列表.pdf
- 现代汉语常用字表.pdf
- 现代汉语常用字表1988126.pdf
- 现代汉语常用字表1988全文精编版.pdf
- 现代汉语常用字表1988全文精编版共15页.pdf
- (三模)晋中市2025年5月高考适应训练考试政治试卷(含答案解析).docx
- (三模)晋中市2025年5月高考适应训练考试英语试卷(含答案解析).docx
- 2025年河池市高三二模政治试卷(含答案解析).pdf
- 二五年第一季度人工智能基础应用课件模块二人工智能相关技术.pptx
- 二零二五年1月份bipap呼吸机使用2.ppt
- 二零二五3月bipap呼吸机使用2.ppt
- 二五年首季度bipap呼吸机使用2.ppt
- 二零二五年次季度计算机应用基础任务二信息的数字化表示.pptx
- 二零二五年度第二季度计算机应用基础任务二信息的数字化表示.pptx
- 二零二五年度1月计算机应用基础任务二信息的数字化表示.pptx
文档评论(0)