中文词频分布与齐夫定律汉语适用性初探.docVIP

下载本文档

35
0
约4.3千字
约 9页
2018-08-14 发布于福建
举报
版权申诉

中文词频分布与齐夫定律汉语适用性初探.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

中文词频分布与齐夫定律汉语适用性初探

中文词频分布与齐夫定律的汉语适用性初探　　摘要：本文试图通过对汉语语料的词频统计与分析，证明齐夫定律的汉语适用性，以期对中文词频分布机理的探索有所裨益。　　关键词：词频齐夫定律汉语适用性　　　　词语频次的观念古已有之，人们也很早就发现了语言中词语使用频次的差异。但那时人们对词语使用频次特征的把握，仍处于感性阶段。19世纪以来，随着语言学的发展，以及对诸如音素、语素和词等各种语言单位认识的提高，人们开始有了较为明确的“基本词汇”的概念。在飞速发展的语言学理论的指导下，出于文学风格和速记研究的需要，人们开始对这些语言成分进行计量分析，统计出这些语言成分在一定的篇章范围内出现的频次，试图总结出这些语言成分的使用频次的规律，以更好地认识语言以及对语言和文献进行分析。这些工作中代表性的成果就是各种频率词典的出现。　　1898年，德国语言学家F.W.Kaeding在5000名速记人员和800名合作者的帮助下，历时七年，手工统计了以报刊为主要语料来源的资料，所统计的总词汇量达10，910，777条，而其中频次在4以上的词共有79716个，这些统计结果被编纂成了世界上第一部频率词典“Haufigkeits Worterbuch der Deutschen Sprache”（《德语频率词典》），这也被普遍认为是第一次现代意义上的以统计调查方法完成的词汇研究工作。　　到了20世纪初，美国教育学家兼心理学家E.L.Thorndike先后编写了Teachers Word Book of 20，000 Words（《教师二万词词书》）和Teachers Word Book of 30，000 Words（《教师三万词词书》），对英语的词汇作了大量的频率统计工作。　　此后各种语言的频率词典大量涌现，形式也多种多样。而随着不同语言中有关词频资料的大量积累，词语频次的特征也不断被揭示，人们开始从理论上思考词频差异的现象，并尝试总结出词频现象的规律来。由于频率词典实际上就是一种词表，而其中词的出现频次与词的等级是最基本的两个数据，规定了一个词在词表中的地位和性质，因此人们首先着重研究的就是这两个基本数据之间的相互关系，以揭示词的序号的分布规律。艾思杜、贡东、齐夫、朱斯和芒代尔布罗等学者先后对这个问题进行了大量的探索，分别做出了自己的贡献，并最终确立和完善了齐夫定律。　　齐夫定律由哈佛大学教授、著名语言学家和情报学家乔治?金斯利?齐夫（George Kingsye Zipf）于1935年提出和确立。在艾思杜、贡东等人有关词频分布规律数学模型的基础上，他根据其提出的“最省力法则”理论，通过定量化的形式对文献中词语出现的频次进行了统计和分析，揭示了文献中词频分布的机理和规律，是数理语言学和文献信息计量学中最为基本的经验定律之一。后来，朱斯和芒代尔布罗又相继对其进行了修正和完善，使其更加符合语言的现实状况。　　齐夫在前人研究的基础上，收集了大量统计材料，并进行了系统的分析，发现在任何一篇文章中，词的出现频率都服从如下规律：　　如果把一篇较长文章（约5，000）中每个词出现的频次统计起来，按照高频词在前、低频词在后的递减顺序排列，并用自然数给这些词编上等级序号，即频次最高的词等级为1，频次次之的等级为2……频次最小的词等级为D（或L）。若用f表示频次，r表示等级序号，则有：f?r=C，其中C为常数。但这里的常数并不是绝对不变的恒量，而是围绕一个中心数值上下波动。上式与齐夫以前验证过的定量形式是一致的，人们亦称该式为齐夫定律（或称齐夫第一定律）。　　根据文献中出现的词频与等级序号的统计数据，建立f与r的直角坐标系，用横坐标表示词的等级序号r，纵坐标表示相应的频次f，就可以得到一条双曲线，即齐夫分布曲线。如果等级序号r与频次f都取对数坐标，则上图中的图像就变成一条直线，即齐夫分布对数曲线。这种类型的分布，就叫做齐夫分布。　　齐夫定律提出几十年来，语言学家们通过统计各种自然语言（尤其是印欧语系的语言）的文献对其进行了验证，发现均大致符合其提出的定量化规律。但汉语是否适用齐夫定律的问题，并未得到根本解决。本文试图通过对中文文献词频的统计和分析，来做一些验证性工作。　　一、统计语料、统计手段及分词原则　　本文的统计样本语料为王蒙的小说《坚硬的稀粥》中的前十八个段落，统计手段为人工分词，辅以计算机计数。分词时所依据的原则是：　　（一）根据汉语自身的语言特点，以齐夫定律理论为基础，再参照《现代汉语词典》条目所列出的词语形态，以保留词语语义的完整性为前提。　　（二）人名、地名等专有名词均作为独立的词来划分。　　（三）确定词语等级时，依据并列法，即将同频词不论多少均作为一个词来对待，以其在语料中的词频序值为词语级