- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
3文献信息词频分布规律-齐普夫定律
几个基本概念 词频(nr ):自然语言中某一个单词在文献中或讲话中出现的次数(频次)。不同的词汇在同一篇文献中出现频次的分布是不均匀的。 词汇数(N):文献中出现的不同词的数量。即:文献中作者使用了多少个不同的词。 词次数(N‘):文献的长度,总词量,包括同一词重复出现的次数。 Human Behaviour and the Principle of Least Effort 文献中对词的利用 《毛泽东选集》(四卷合订本,1967年)总词量约66万,收录2775个汉字。 汉字中,目前人们使用的汉字约有15000个。 国家文字改革委员会(语言文字工作委员会)统计: 掌握2851个汉字可以满足99%的阅读需要; 掌握5018个汉字可以满足99.9%的阅读需要。 在语言交流过程中,“省力法则”同时体现在说话人和听话人身上。 多样化的力——说话人希望组成语言的词少,而且一词多义,以节省其精力。 单一化的力——听话人认为最好是一词一义,使听到的词与其确切涵义容易匹配,便于理解。 我国词频统计工具 南京高等师范到南京大学教授,杰 出的现代儿童教育家 我国近代教育家陈鹤琴(1892~1982)第一部汉语频率字典《语体文应用字汇》(1928) ,从554478个汉字中析出4261个单字。 江泽民为陈鹤琴先生雕像墓碑落成题词:“学习爱国老教育家陈鹤琴先生的献身精神和创业精神,深化教育改革,为培育四有新人,振兴中华的大业而奋斗!” 北京语言学院语言教学研究所采用人工与计算机相结合的办法,对近200万字的汉语语料进行词频统计,编制了《现代汉语频率词典》,收词31159条,这是中国正式出版的第一部汉语频率词典。 五、齐夫定律在信息管理工作中的应用 最佳地理位置选择,使得使用者能以最省力的途径方便到达。 设计图书馆、信息中心资料库的排架。 《教师二万词词书》——词频法统计词汇的最重要的一部文献——美国教育学家桑戴克(E L. Thorndike) :Teachers Word Book of 20,000 Words 选择出常用的词汇20,000个,依照每个词在这些文献中出现出现的频率分成20级,每级1000个词,用1,2,3....20来标记。 6.25万字的儿童文学读物 300万字左右的圣经和英国古典文学作品, 30万字左右的小学课本, 5万字左右的有关烹饪,缝纫,农艺,商业之类的著作 9万字左右的新闻报纸 5万字左右的书信,共41种不同的文献 根据Ogden在1967年版的Encyclopaedia Britanica中对Basic English的定义,对于一个英语国家的成年人,应认识20000个单词,除语言专家外,普通人遇到的单词量一般不超过60000个。 问题:假定这60000个单词在文献中出现的频次服从Zipf定律,那么一个人如果认识上述20000个常用单词,即当m=20000时(1/3),对英文读物的词汇覆盖率有多大? 齐夫定律的启示——英语单词的选择 由nr=k/r可知,排列在前m个等级词出现的总频次为: 英语单词的选择问题 设?为覆盖率,则 从理论上讲,只要熟练掌握1/3的高频词,就可以“读懂”含有6万个不同词(词组)的文献内容的90%。 由调和级数求和公式(欧拉公式)可知: 所以近似有: 单词覆盖率: “四级”考试:4500 77.63% “六级”考试:5500 79.36% PETS5需要 6000 80.12% TOEFL词汇8000 82.3% * 齐普夫定律 济宁医学院 信息工程学院 第五章 文献信息词频分布规律---齐普夫定律 信息计量学 第一节 齐普夫定律的理论基础-最省力法则 第二节 齐普夫定律的形成和确立 第三节 齐普夫定律的基本内容 第四节 齐普夫定律的发展 第五节 齐普夫定律的应用 信息计量学 信息计量学 第一节 齐普夫定律的理论基础-最省力法则 第五章 文献信息词频分布规律---齐普夫定律 一、最省力法则 每一个人的运动,不管属于哪种类型,都是在一定道路上进行的,而且都将受一个简单的基本法则的制约,千方百计地选择一条最省力的途径。在各种运动中,人们也都有意无意地按照这个法则行事。齐普夫把这样一个他认为普遍存在的法则称为“最省力法则”(the Principle of least effort)。 A地 B地 信息计量学 第一节 齐普夫定律的理论基础-最省力法则 语言文字是人们表达思想进行交流的工具。通过观察分析尽可能将语言中隐含的意义揭示出来,提高和强化语言的表达能力,是词频统计分析的目的所在。 任何一种语言,其总词汇量可能很大,但通常使用的词汇却占其中较少一部分
您可能关注的文档
- 2016-高中语文-8ppt课件.15《子夜》吴老太爷进城课件-新人教版选修《中国小 说欣赏》.ppt
- 2016-高中语文-9ppt课件.17《红旗谱》朱老巩护钟课件-新人教版选修《中国小 说欣赏》.ppt
- 20161015七(四)期中家长会.pptx
- 2016中考语文复习课件第一部分专题六句子的衔接与排序.ppt
- 2016中考标点符号专题复习(杨威)修改版.pptx
- 2016中考语文常见题型及规范答题模式.ppt
- 2016北方联合电力招聘194名高校毕业生公告.doc
- 2016初中地理全程复习方略配套课件专题四-突破人地关系的两个技巧.ppt
- 2016历史一轮复习--欧洲的宗教改革.ppt
- 2016四级听力题型解题技巧.pptx
文档评论(0)