关于现代汉字的字量.DOCVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
关于现代汉字的字量 学习建议: 1.学习重点:⑴汉字效用递减率。⑵常用字笔画趋简率。⑶通用字和常用字。⑷限制和减少汉字的字数。 2.阅读教材第三章和第四章。 3.阅读参考文献《频率与汉字的简化》、《现代汉语用字的字量问题》。 4.完成作业。 一、现代汉字的字频统计和分析 ㈠字频统计 传统的文字学认为,汉字具有形、音、义三个要素,但是,汉字作为记录汉语的符号,它必须作为一种交际工具而存在,在交际过程中,有的汉字使用得多些,有的使用得少些,呈现出一定的统计规律性。因此,从使用的角度看,汉字还应当具有第四个要素——字频。 字频就是汉字的使用频度,是指在一定的历史时期内经抽样取得的文字资料里,每一个汉字的使用次数与抽样资料总字数的比例。它的计算公式是: Fi = (ni / N)×100% N为抽样资料总字数,nI 为某汉字的出现次数。 ㈡二十世纪的汉字字频统计 1.《语体文应用字汇》,1928年出版,陈鹤琴(1892一1982)著。20世纪20年代,他在南京高等师范学校任教。为了给编辑千字课做选字参考,他和助手用了两年多的时间,语料数554478字,得到了4261个字种,编成了《语体文应用字汇》。这是第一本现代汉字字频统计的著作,书中频率最高的20个字是:的不一了是我上他有人全这来小在们说子可道。的29592次。 2.《汉字频度表》,1977年内部出版。这项研究由北京新华印刷厂负责,建立了统计组,组织了北京市的中学、印刷厂等十九个单位的2000多人参加。语料数2160多万字,用人工进行字频统计。经过两年多的努力,最后完成了统计工作,得到了6374个字种。 《汉字频度表》包括五个部分:⑴《政治理论频度表》,⑵《新闻通讯频度表》,⑶《科学技术频度表》,⑷《文学艺术频度表》,⑸《综合频度表》。《综合频度表》是前四个频度表的综合表。每个表都设有五个栏目。单字按照频度由高到低排列。下面是《综合频度表》开头的10个字是:的一是在了不和有大这。 1984年初,原统计组的成员又用了一年多的时间,查找原始数据,用计算机重新计算,并且又增加了一些新内容,由贝贵琴、张学涛编成《汉字频度统计》,1988年4月由电子工业出版社出版,共有字种5991个。书中的《汉字频度统计表》,把汉字分为五级:(请看教科书35页) 3.《汉字频率表》,北京语言学院语言教学研究所编,北京语言学院出版社1986 年6月出版。这本词典用人工和计算机相结合的办法,从词语应用的角度作了较大规模的词汇计量研究,同时兼及汉字字频和组词能力的统计与分析,所用语料有180万字。《汉字频率表》有字种4574字。这次统计方法得当、抽样科学,得出的结果有很高的参考价值,不过由于语料较少,得到的字种数也较少。 4.《现代汉语字频统计表》,北京航空学院(现为北京航空航天大学)计算机科学工程系承担,语文出版社1992年1月出版。 这次字频统计所用的语料,是从1977年到1982年间社会科学和自然科学的13800万字的材料中抽取出来的,总字数为1108万字,结果得到7754个字种。这次统计对多音字的频率按音项分别计算,这比过去把多音字作为一个单字来统计更科学。这次统计抽样的面比较广,时间较长,项目分得较细,而且是用计算机进行,统计精度较高,得到的结果能满足不同方面的需要。 ㈢字频统计的分析 通过对汉字字频统计结果的分析,我们得到了两条规律:一条是汉字效用递减率,另一条是常用字笔画趋简率。 1.汉字效用递减率。 从存在的状态来考察汉字,可以把汉字分为两类,就是储备状态的字和使用状态的字。储备状态的字是静态的字,如字典里的字;使用状态的字是动态的字,如出现在文章里的字。字频统计的对象是动态的字,也就是使用状态的字。在字典里每个静态的字构成一个条目,地位是相等的;而动态的字出现的频率不同,有的甚至非常悬殊,常用字又非常集中。根据《现代汉语频率词典》中的《汉字频率表》,的出现75306次,频率为4.16489%,而乾、蔷、薇等400多字,每个字只出现一次,频率为0.00011%。按照降频排列,前100个字的累计频度是47.33584%;前2418字的累计频率是99.00023%。 周有光对各家统计的结果进行分析归纳,抽象出汉字出现频度不平衡规律,也叫汉字效用递减率:(请看教科书39页) 这个规律可以表述为:最高频1000字的覆盖率大约是90%,以后每增加1400字大约提高覆盖率十分之一。或者说,以后每增加1400字,欠缺率减少了9/10,只是原来的1/10。根据这个规律,我们可以知道:(1)汉字的常用字非常集中。字频统计中前2400字,覆盖率高达99%。汉字总字数虽然很多,但是掌握了2400个高频字,就可以认识书面语的99%。(2)字频统计中序号在6600以后的字,不管有多少字种,总的覆盖率不超过0.001%。

文档评论(0)

2105194781 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档