文献计量学05.pptxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
这是精心收集的精品经典资料,值得下载保存阅读!

文献计量学05 齐普夫定律 大纲 齐普夫及最省力法则 齐普夫定律的形成 齐普夫定律的基本原理 齐普夫定律的发展 齐普夫定律的应用 齐普夫 George Kingsley Zipf (1902-1950):美国哈佛大学教授、著名的语言学家和心理学家 用大量的统计数据来验证前人有关词频分布规律的研究成果 1948年出版了《人类行为及最省力法则-人类生态学引论》 Human Behaviour and the Principle of Least Effort: an Introduction to Human Ecology. Addison-Wesley 1949 齐普夫的最省力法则 例子: 从A地到B地时,可以走不同的路;从经济上、安全上、时间上并结合本人的主观条件(如身体情况)及客观情况(所处的环境)等种种因素来考虑,设法选择一条最符合自己要求的道路,使得自己付出的“力”最小。 利用语言表达思想时,会受到两个方向相反的力的作用 单一化力:希望尽量简短 多样化力:希望能被对方理解 单一化力及多样化力取得平衡,使自然语言词汇的分布呈现了双曲线。 齐普夫经验法则的形成 齐氏定律形成的基础 齐氏定律的确立 齐氏定律形成的基础 频率词典(词表) 每一个词在一定长度的文件中出现的频率 两个最基本的数量指标 词的出现频率、词的序号 艾斯杜(J. Estoup,速记员)发现(1916) 较长的文章中,词频分布的定量化形式, Nr×r=C(常数) 词的序号:1,2,…,r,…,D (1:绝对频率最大的词,D:绝对频率最小的词) 词的绝对频率:n1,n2,…,nr,…,nD 贡东(E. Condon)的公式 贡东:美国贝尔电话公司物理学家,电话线路的通讯能力 根据德韦和阿叶斯的资料,得到词频分布图 词的序号的对数为横坐标 log r 词的绝对频率的对数为纵坐标 lognr 定量公式:fr×r=C 令:tanα=γ Log(r γ×nr)=log C C的值究竟是不是常数,还必须加以验证 齐普夫定律的确立 检验E. Condon关系式的可靠性并研究C的性质 确定c是一个参数,使得 验证了单参数词频分布公式的正确性 Fr × r=c (或者pr × r=c) 齐普夫定律的基本原理 齐普夫定律的基本内容 齐普夫定律的图像描述 齐普夫定律的局限性 齐普夫定律的基本内容 齐普夫定律 fr ×r=c Fr:频次,r:等级序号 齐普夫定律的“最省力法则”的解释 任何语言中,凡是使用频率最高的词,功能总是不会太大;因为其本身在这个场合中价值小,因而传递它们所需要的“力”就不大。 齐普夫定律的图像描述 横坐标:等级序号r 纵坐标:相应的频率f 等级r及频率f均取对数。 虚线:lnr+lnf=lnc 实线:blnr+lnf=lnc (斜率为b) 齐普夫定律的局限性 对出现频率特别高的词和特别低的词,并不能完全地反映分布规律 低频率的词,序号相同的很多 高频率的词,序号相同的词随着频率的增高而越来越少 齐普夫定律的发展 朱斯(M. Joos)修正 芒戴尔伯特B. Mandelbrot修正式 布斯(B. Booth)的齐普夫第二定律 朱斯修正式 单参数词频分配律--〉双参数词频分布律 Pr=cr-γ中, c和r的负指数(以γ表示)都是参数 γ 不是一个常数而是一个参数 当词典收词多时,γ 会增大,即图像中的α角会增大;当收词少的时候, γ 会减少,α 角会变小。 双参数词频分布公式 Pr=cr-γ γ0,c0,对于r=1,……,D,参数γ,c要使 当γ=1时,公式变为Pr=cr-1,就是齐普夫的单参数词频分布律 芒戴尔伯特修正公式 三参数频率分布律 Pr=c(r+a)-b 0 ≤ a1,b0,c0,对于r=1,……,D,参数a,b,c要使 参数c:及出现频率最高的词的概率有关 参数b:与高概率词的数量多少有关,对于r50的高频词,b是r的非减函数,随着r的增大,参数b并不减少 参数a:与词的数量n有关。 当a=0,公式形式为Pr=cr-b 当a=0,b=1时,公式形式为Pr=cr-1 齐普夫词汇分布图 齐普夫第二定律 齐普夫定律可以分成两大定律 高频词分布的定律 (齐普夫第一定律) 低频词分布的定律(齐普夫第二定律) 布斯的修正 齐普夫的推导 Pr=n/T ,pr为第r位词出现的概率,T为词的总体集合中不同词出现的总次数,n为序位为r的词汇的绝对频率 仅仅出现一次的词汇,可能有许多个,一般而言: 布斯修正公式 称齐普夫第二表达式 英文正文中低频词的数量 I1为出现一次的词的数量 In为出现n次的词的数量 及正文的长度和常数C无关,仅与单词的频率有关 n=2,3,4…… 齐普夫定律的应用 文献标引和词表编制 信息检索 在图书情报管理

文档评论(0)

jgx3536 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:6111134150000003

1亿VIP精品文档

相关文档