- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
现代汉字的字频统计与分析
第 PAGE 3 页 共 NUMPAGES 7 页
专题辅导第三讲:关于现代汉字的字频统计与分析
从这一讲开始,专题讲座进入汉字属性的研究,这是现代汉字学主要的部分。
传统汉字学谈到属性一般认为有形、音、义三个部分,而现代汉字研究认为汉字的属性除了形、音、义以外,还有字频、字序等。字频涉及汉字的统计研究。
我们在使用现代汉字的许多场合需要使用汉字字频统计结果。对汉字的数量进行统计要区分两种统计:一种是静态的统计,一种是动态的统计。
静态的统计指字典里字头的统计和字表里字数的统计。一部字典字头有多少字,《现代汉语通用字表》有7000个通用汉字,这样得出的汉字的数量是静态统计。静态统计就是在储备状态下的汉字数量。
动态统计指在使用中汉字数量的统计。如对一篇文章或一部书,统计一共出现了多少个不同的单字,不同的汉字学上的专用名词叫字种。动态统计要统计特定的语料范围内,每一个字种出现的次数,还要计算出这个字在整个统计的语料中所占的百分比,这就是汉字的动态统计。
这两种统计都是有价值的,都是需要的。但比较而言,动态统计的作用可能更大。特别是编教材、给电脑做字库、编字典确定收哪些字,就一定要参考动态统计的结果。如编语文识字课本,假定这本书要教给学生2000个汉字,这是数量的问题,而教哪2000个汉字呢?这就涉及汉字的动态统计。如果这2000字都是使用频率很高的字,学生学习之后对于其阅读能力会有明显的提高;如果数量仍然是2000个,但是2000字选的使用频率很低的字,学了之后,阅读中就一定会有许多字不认识,阅读的障碍一定会明显。这就是说动态的统计对于实际语文工作有重要的作用。
一个字在静态统计和动态统计里所处的地位可能不一样。在静态统计里,每个字的位置和地位是平等的,如“的”和“枫”在字典里各占一个字头,但是在动态统计里这两个字出现的次数就很不一样,“的”出现的次数很多,“枫” 出现的次数一般都比较少。这两个字在全部统计语料里所占的百分比自然也就很不一样。所以,研究汉字的使用要研究汉字的字频。
传统汉字学不大注意汉字的定量分析和定量研究,因而也就谈不上汉字的字频统计和研究。现代汉字研究从汉字属性的角度要考虑字频的问题。
现代汉字进行字频统计研究是受西方语言文字学的影响。西方主要使用拼音文字的国家在20世纪已经开始了对于词频的统计、研究,这种思想、这种方法传到中国,我们也用来进行汉语的词频统计,同时,也用来进行汉字的字频统计。一百年来,汉字的字频统计取得了重要的结果。
一、近百年来,字频统计的开始和四次比较重要统计简介
1.现代汉字字频统计是受西方语言文字学的影响在中国首先从事字频统计的是20世纪20年代的教育家陈鹤琴
陈鹤琴先生留学美国学习教育学,学习了美国对于词频统计的理论和方法,回国后从事小学语文教材的编写,在确定选用哪些字的时候,就应用了国外使用的字频统计的方法。他在南京的一所学校工作,为了做字频统计,和两个助手工作,一共选择了55万字的语料(即统计所用的原始材料的总字数是55万),包括教材、当时使用的语体文等等,然后用手工统计把这55万多字的资料所用的字分开(相同的字归在一起),最后再看到多少不同的单字。这就是“字种”。因为靠手工作业,这项工作的繁重是可以想象的。经过两年多时间,这项工作才完成。最后得出的结果是,这55万多字的语料,用到不同的汉字单字一共4261个字。他把这次研究的成果编成了《语体文应用字汇》,1928年商务印书馆公开出版。这是一本薄薄的书。这本书把统计得到的4261个字按照统计出现的次数,由多到少排列出来(按照“降频顺序”排列)。统计结果出现次数最多的前10个字是:的、不、一、了、是、我、上、他、有、人。每个字后注明这个字在55万字里出现的次数和占的百分比。这是国内第一次规模较大的字频统计,陈先生的做法在当时具有开创性,对后代起到了示范的作用。陈先生根据这次字频统计结果,选定了高频的2千多字编入了他所主持的识字课本里,但到了好的效果。这是汉字字频统计的开始,但是在旧中国,教育十分落后,字频统计没有得到应有的重视和发展。
2.到了20世纪70年代,世界上语言文字信息处理技术已经得到普遍的重视,我国也认识到必须发展中文信息处理的技术,当时国家主管部门决定立项专门进行中文信息处理的研究。为了解决中文信息处理的问题,就要确定电脑字库收字的量和收字的字种都是哪些字,于是进行大规模的字频统计。这在当时是高科技的研究。这个工作从1974年8月立项,成为“748工程”(即中文信息处理研究)。其中的汉字字频统计由新华印刷厂牵头负责,专门组织了19个单位共同协作。这次字频统计的规模很大,所用预料的总字数多达2160万字。当时中国正在进行文化大革命,许多文学作品受到了错误的批判,在进行统计时所选的语料以科技文、政论文为主,文艺作品占
文档评论(0)