文献信息词频分布规律齐普夫定律.ppt

文献信息词频分布规律齐普夫定律

几个基本概念 词频(nr ):自然语言中某一个单词在文献中或讲话中出现的次数(频次)。不同的词汇在同一篇文献中出现频次的分布是不均匀的。 词汇数(N):文献中出现的不同词的数量。即:文献中作者使用了多少个不同的词。 词次数(N‘):文献的长度,总词量,包括同一词重复出现的次数。 Human Behaviour and the Principle of Least Effort 文献中对词的利用 《毛泽东选集》(四卷合订本,1967年)总词量约66万,收录2775个汉字。 汉字中,目前人们使用的汉字约有15000个。 国家文字改革委员会(语言文字工作委员会)统计: 掌握2851个汉字可以满足99%的阅读需要; 掌握5018个汉字可以满足99.9%的阅读需要。 在语言交流过程中,“省力法则”同时体现在说话人和听话人身上。 多样化的力——说话人希望组成语言的词少,而且一词多义,以节省其精力。 单一化的力——听话人认为最好是一词一义,使听到的词与其确切涵义容易匹配,便于理解。 我国词频统计工具 南京高等师范到南京大学教授,杰 出的现代儿童教育家 我国近代教育家陈鹤琴(1892~1982)第一部汉语频率字典《语体文应用字汇》(1928) ,从554478个汉字中析出4261个单字。 江泽民为陈鹤琴先生雕像墓碑落成题词:“学习爱国老教育家陈鹤琴先生的献身精神和创业精神,深化教育改

文档评论(0)

1亿VIP精品文档

相关文档