现代汉语计算语言模型中语言单位的频度—频级关系∫.pdfVIP

现代汉语计算语言模型中语言单位的频度—频级关系∫.pdf

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
现代汉语计算语言模型中语言单位的频度—频级关系∫

中 文  信  息  学  报 第 13 卷 第 2 期 JOURNAL OF CHINESE INFORMATION PROCESSING Vol . 13 No. 2 现代汉语计算语言模型中语言 单位的频度 —频级关系 关 毅  王晓龙  张 凯 哈尔滨工业大学计算机系自然语言理解研究室  15000 1 摘要  Zipf 定律是一个反映英文单词词频分布情况的普适性统计规律 。我们通过实验 发现 ,在现代汉语的字 、词 、二元对等等语言单位上 ,其频度与频级的关系也近似地遵循 Zipf 定律 ,说明了 Zipf 定律对于汉语的不同层次的语言单位也是普遍适用的。本文通过实验证实 了 Zipf 定律所反映的汉语语言单位频度 —频级关系 ,并进而深入讨论了它对于汉语 自然语言 处理的各项技术 ,尤其是建立现代汉语基于统计的计算语言模型所具有的重要指导意义 。 关键词  Zipf 定律  字频  词频  二元对频度 一 、引言 Zipf 定律是美国哈佛大学的语言学家 George Kingsley Zipf ( 1902~1950) 发现的[ 1 ] 。他发 ( ) 现 ,在大量英文文本中对单词进行计数 ,并从最高频到最低频进行排序 w 1 , w2 , …, wn ,那么 1 [2 ] ( ) ( ) 其频度 f 1 , f2 , …, f n 近似地服从 Zipf 定律 Zipf , 1935 , 即 f n ∝ ,随后又由Mandelbrot 给 n 出了更佳的近似 f n ∝n - 1. 05 。自Zipf 定律发现以来 ,许多研究者对英语的不同结构层次从音 素级到语句级 ,进行了统计研究[3 ] ,给出了相应的 Zipf 定律 。Zipf 定律对于自然语言理解的各 个领域 ,尤其对建立自然语言统计模型具有重要的指导意义 。 假设有一数据集 ,将集合内的元素按大小顺序排列 ,使得 x1 = x2 = … = xn 按照这种顺序 , r 称为 x 的序号( ) 可以视 x 为有序集中第 r 个元素值的大小 。Zipf 定 r rank 。 r 律给出了一个元素的值与它相应的序号之间的关系 ,可以简单地描述如下 : r ·xr = 常数 ( 1) 这种序号 —大小关系图是如图 1 所示的双曲函数 。 ∞ 令 x 为集合中某元素的大小 , f ( x) 为其出现的频率 , f ( x ) d x = 1 。令 n 为数据集中元 ∫ 0 素的总的个数 ,且定义 N ( x) 为值大于 x 的元素的个数 ,那么 : 本文由国家八六三项 目资助 ,项 目编号 :863 - 306 - 03 - 02 - 1 本文于 1998 年 4 月 23 日收到

文档评论(0)

zhaoxiaoj + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档