- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
这是精心收集的精品经典资料,值得下载保存阅读!
文献计量学05
齐普夫定律
大纲
齐普夫及最省力法则
齐普夫定律的形成
齐普夫定律的基本原理
齐普夫定律的发展
齐普夫定律的应用
齐普夫
George Kingsley Zipf (1902-1950):美国哈佛大学教授、著名的语言学家和心理学家
用大量的统计数据来验证前人有关词频分布规律的研究成果
1948年出版了《人类行为及最省力法则-人类生态学引论》
Human Behaviour and the Principle of Least Effort: an Introduction to Human Ecology. Addison-Wesley 1949
齐普夫的最省力法则
例子:
从A地到B地时,可以走不同的路;从经济上、安全上、时间上并结合本人的主观条件(如身体情况)及客观情况(所处的环境)等种种因素来考虑,设法选择一条最符合自己要求的道路,使得自己付出的“力”最小。
利用语言表达思想时,会受到两个方向相反的力的作用
单一化力:希望尽量简短
多样化力:希望能被对方理解
单一化力及多样化力取得平衡,使自然语言词汇的分布呈现了双曲线。
齐普夫经验法则的形成
齐氏定律形成的基础
齐氏定律的确立
齐氏定律形成的基础
频率词典(词表)
每一个词在一定长度的文件中出现的频率
两个最基本的数量指标
词的出现频率、词的序号
艾斯杜(J. Estoup,速记员)发现(1916)
较长的文章中,词频分布的定量化形式,
Nr×r=C(常数)
词的序号:1,2,…,r,…,D
(1:绝对频率最大的词,D:绝对频率最小的词)
词的绝对频率:n1,n2,…,nr,…,nD
贡东(E. Condon)的公式
贡东:美国贝尔电话公司物理学家,电话线路的通讯能力
根据德韦和阿叶斯的资料,得到词频分布图
词的序号的对数为横坐标 log r
词的绝对频率的对数为纵坐标 lognr
定量公式:fr×r=C
令:tanα=γ Log(r γ×nr)=log C
C的值究竟是不是常数,还必须加以验证
齐普夫定律的确立
检验E. Condon关系式的可靠性并研究C的性质
确定c是一个参数,使得
验证了单参数词频分布公式的正确性
Fr × r=c (或者pr × r=c)
齐普夫定律的基本原理
齐普夫定律的基本内容
齐普夫定律的图像描述
齐普夫定律的局限性
齐普夫定律的基本内容
齐普夫定律
fr ×r=c
Fr:频次,r:等级序号
齐普夫定律的“最省力法则”的解释
任何语言中,凡是使用频率最高的词,功能总是不会太大;因为其本身在这个场合中价值小,因而传递它们所需要的“力”就不大。
齐普夫定律的图像描述
横坐标:等级序号r
纵坐标:相应的频率f
等级r及频率f均取对数。
虚线:lnr+lnf=lnc
实线:blnr+lnf=lnc
(斜率为b)
齐普夫定律的局限性
对出现频率特别高的词和特别低的词,并不能完全地反映分布规律
低频率的词,序号相同的很多
高频率的词,序号相同的词随着频率的增高而越来越少
齐普夫定律的发展
朱斯(M. Joos)修正
芒戴尔伯特B. Mandelbrot修正式
布斯(B. Booth)的齐普夫第二定律
朱斯修正式
单参数词频分配律--〉双参数词频分布律
Pr=cr-γ中, c和r的负指数(以γ表示)都是参数
γ 不是一个常数而是一个参数
当词典收词多时,γ 会增大,即图像中的α角会增大;当收词少的时候, γ 会减少,α 角会变小。
双参数词频分布公式
Pr=cr-γ
γ0,c0,对于r=1,……,D,参数γ,c要使
当γ=1时,公式变为Pr=cr-1,就是齐普夫的单参数词频分布律
芒戴尔伯特修正公式
三参数频率分布律
Pr=c(r+a)-b
0 ≤ a1,b0,c0,对于r=1,……,D,参数a,b,c要使
参数c:及出现频率最高的词的概率有关
参数b:与高概率词的数量多少有关,对于r50的高频词,b是r的非减函数,随着r的增大,参数b并不减少
参数a:与词的数量n有关。
当a=0,公式形式为Pr=cr-b
当a=0,b=1时,公式形式为Pr=cr-1
齐普夫词汇分布图
齐普夫第二定律
齐普夫定律可以分成两大定律
高频词分布的定律 (齐普夫第一定律)
低频词分布的定律(齐普夫第二定律)
布斯的修正
齐普夫的推导
Pr=n/T ,pr为第r位词出现的概率,T为词的总体集合中不同词出现的总次数,n为序位为r的词汇的绝对频率
仅仅出现一次的词汇,可能有许多个,一般而言:
布斯修正公式
称齐普夫第二表达式
英文正文中低频词的数量
I1为出现一次的词的数量
In为出现n次的词的数量
及正文的长度和常数C无关,仅与单词的频率有关
n=2,3,4……
齐普夫定律的应用
文献标引和词表编制
信息检索
在图书情报管理
您可能关注的文档
最近下载
- 2023年阳江市社区工作者招聘考试真题 .pdf VIP
- 《高效课堂和有效教学模式研究》结题报告材料.pdf VIP
- 生猪、牛、羊、鸡、鸭、鹅屠宰HACCP计划模式表.pdf VIP
- 2024-2025学年广西壮族自治区小升初英语真题(含答案).pdf VIP
- 环保项目设备供货及服务保障措施.docx VIP
- 初中物理每日默写知识点(1)_Decrypted.pdf VIP
- 人教版信息科技四年级《多彩的数字世界》教学PPT课件.pptx VIP
- 我的幸福大家庭.pptx VIP
- 安全教育开学第一课主题班会PPT课件.pptx VIP
- (2025秋新版)人教版数学二年级上册教学计划.docx VIP
文档评论(0)