一种新的汉字字频统计方法.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种新的汉字字频统计方法,汉字字频表,汉字字频,字频统计,现代汉语字频统计表,字频统计软件,英文字频统计软件,黑兽中文字频种子,6763字频表,字频千字文

中 文  信  息  学  报 第 12 卷 第 1 期 JOURNAL OF CHINESE INFORMATION PROCESSING Vo1. 12 No. 1 一种新的汉字字频统计方法①② 游荣彦 华南师范大学 计算机科学系  广州  5 1063 1 【摘要】 本文用误差估计方法 ,在给定误差限和置信概率的条件下 ,解出了汉字字频 统计的抽样规模 ,解出了一种汉字字频统计的抽样规模 ,提出了一种汉字字频统计的新方 法 ,该方法中所定义的汉字的统计频率具有统计学上的无偏性且较之以前方法具有更小的 方差 ,因而是汉字的使用频率的一种更为精确的估计 。 关键词 :使用频率  统计频率  抽样规模  置信概率  无偏性  有效性 一 、前  言 我国分别在 70 年代和 80 年代作过两次规模较大的汉字字频统计 ,第一次由手工进行 [ 1 ] ( 且样本选取不尽合理 ,故所得的字频统计值不够精确 ,第二次以北京航空学院 现为航天 ) 大学 牵头 ,多单位合作 ,使用了计算机处理 ,借鉴了第一次字频统计的经验 ,所得的数据较 为准确 ,具有相当的权威性 。但是第二次较大规模的字频统计在方法上也并非是尽善尽美 的 ,似乎还存在别的更好的方法 。从那时至今 ,十年过去了 ,我国的面貌发了很大的变化 , 经济的发展 ,科技的进步 ,人民在观念方面的变化等等因素 ,都促使字频渐渐作了改变 ,这 种改变是微量的 ,缓慢的 ,但积累到一定程度 ,就是不可忽略的了。虽然我们没有足够的证 据断言有必要马上再作一次大规模的汉字字频统计 ,但可以相信 ,这只不过是早晚的事 。 汉字字频分析是中文信息处理其中一项重要内容 。社会是变化向前的 ,字频也会随之 而变 ,因此任何一次字频统计都不可能是一劳永逸的。一次大规模的字频统计要耗费大量 时间、人力和物力 ,决策者与参予人都应抱有谨慎和科学的态度 ,从抽样方案及实施细节以 至到数据的计算机处理等等问题 ,都应尽量做得合理 。本文探讨在规定精度要求之下 ,如 何决定字频统计的抽样规模问题 ,此外还借助于全概率的思想 ,对一个汉字的使用频率作 出另一种定义 ,并由此而提出一种新的抽样方法 ,最后还证明了这种分类抽样的方法能提 高字频统计值的精度 。 ① 本文 1997 年 2 月 28 日收到 ② 本课题得到广东省高等教育厅基础研究基金项 目资助。 42 二 、汉字的统计频度与抽样规模的确定 众所周知 , 中文是一个基于大字符集的语言系统 ,每个汉字都是该系统中的一个基本 字符 ,所有汉字字符的总量超过 6 万 。使用汉字表示信息时 ,各个汉字被使用的机会参差 ( ) 不等 ,有的机会很大 例如“的”字和“是”字 ,有的机会较大 ,有的机会一般 ,有的机会较小 , ( ) 还有的机会甚微 例如一些仅用作姓氏的字和一些将要成“死字”的字 。每个汉字被使用 的机会的大小由词法 、语法和文化习惯以及社会环境所支配 ,是由客观所决定的量 ,这就是 所谓的汉字使用频率 。但汉字的使用频率是无法确切掌握的 ,因此只能借助于统计的方法 予以估计 。由统计方法估算出的使用频率值有时也称为流通频率 ,本文将按数理统计的习 惯称为统计频率 。 我们没有能力也没有必要统计每个汉字的统计频率 。有意义的工作是在 6 万多汉字 中 ,首先选出 7~8 千个令各个领域都基本够用的汉字 ,然后再对这些汉字进行字频统计 。 以合理的方法选取了含 N 个汉字的文字资料 ,这 N 个汉字构成了一组样本 ,N 称为样 α 本容量 ,也叫做抽样规模 。以 表示一个特定的汉字 ,设它的使用频率为 P ,上文指出 ,P 值

文档评论(0)

tianma2015 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档