- 1、本文档共54页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
情报学基础教程nIntroductiontoInformationScience(修订
1.2.1 基础数据和规律表述 洛特卡定律描述了作者人数与其发表论文之间的关系,首次揭示了作者与发表论文数量之间存在的规律。 后经研究,发现物理学等学科领域的作者与论文之间的关系基本符合平方反比律,而生物、工程、计算机等领域则不符合平方反比关系。一般来说,人文学科、社会科学中,a值将变大;规模较大、科研合作程度较高的学科中,a值会变小。 1.2.2 改进与扩展 虽然洛特卡定律早在1926年就提出,但直到1949年才被称为“洛特卡定律”。 著名科学学家普赖斯(D.Price)就在洛特卡定律基础上进一步研究了科学家人数和科学论文数量之间的关联,在《小科学,大科学》一书中提出了“普赖斯定律”:科学家总数是杰出科学家人数的平方(或者说杰出科学家人数是科学家总数的平方根)。普赖斯定律的另一定量表达是:杰出科学家发表了全部科学论文的50%。 1.2.2 改进与扩展 设 为杰出科学家中最高产作者发表论文数,m为杰出科学家中最低产作者发表论文数,R为杰出科学家人数与全体科学家总数之比,则普赖斯推导出了以下两式: 1.2.3 应用提示 洛特卡定律主要用于研究“科学生产率”,可用于预测发表不同篇数论文的作者数量和特定学科的论文总量,或根据作者数量估计科学论文数量等。 为合理评价洛特卡定律的适用性,美国情报学家科尔(R.C.Coile)于1977年提出用K-S(Kolmogorov-Smirnov)检验法对其进行鉴定,其步骤为: (1)设A为统计的作者总数,计算K-S值: (2)计算最大偏差值D:D=Max|F0(x)-Sn(x)|;其中 F0(x)为累积作者频率理论值,Sn(x)为累积作者频 率观察值; (3)比较D与KS:若DKS,则抽样分布符合洛特卡定 律;若DKS,则抽样分布不符合洛特卡定律。 1.3 齐夫定律 齐夫定律是描述文献中的词与其出现频次之间关系的经验规律,由齐夫(G.K.Zipf)于1935年提出,是一条与语言学密切相关的文献学规律。 本节主要内容: 1.3.1基础数据和规律表示 1.3.2 改进和扩展 1.3.3 应用提示 1.3.1 基础数据和规律表述 齐夫在1949年出版的《人类行为与最省力法则》(Human behavior and the principle of least effort)专著中,系统地将他的发现整理为一条规律: 设有一篇含有N个词的文献(N≥5000),用自然数1,2,3,…给文献中的词编级,出现频次最高的为1,其次为2,直到r (rN),则高频词的频次f与词级r的乘积是一个常数: 其中0c/N1。这就是齐夫定律,也称齐夫第一定律。齐夫本人用最省力法则作为该定律的机理。 1.3.2 改进和扩展 针对高频词 1936年,美国语言学家朱斯(M.Joos)提出含两个参数的齐夫公式: 这是双参数词频分布律,其中b0,c0。当b=1时,等价于齐夫单参数公式。 1.3.2 改进和扩展 针对高频词 1952年,美籍法国数学家曼德布罗(B.Mandelbrot)运用信息论原理和概率论方法研究了词频分布规律,重新解释了齐夫定律,提出了三参数词频分布律: 其中0≤a1,b0,c0。该公式当a=0时,就是朱斯双参数公式;当a=0,b=1时,就是齐夫单参数公式,因而三参数公式具有更广的适用性。 1.3.2 改进和扩展 针对低频词 布斯(B.Booth)首先导出低频词的分布规律: 设出现1次的词数量为I1,出现n次的词数量为In,则低频词满足公式: 上式也称为齐夫第二定律。 1.3.3 应用提示 齐夫定律主要可用于指导文献标引、词表编制和情报检索等,尤其是在自动标引中具有应用价值,因为使用频率太高的词和使用频率太低的词都没有多少检索价值,故应当使用词频适中、词义强健的词作为标引词。 1.4 文献增长律 文献增长律是描述文献信息量随时间而不断增加的规律 。 文献增长律主要有以下模型 : 指数曲线 逻辑曲线 勒歇尔模型 1.4.1 指数曲线 普赖斯(D. Price)在1961年正式出版的《巴比伦以来的科学》中,系统地提出了科技文献按指数规律增长的经验规律。 设t时间的文献信息数量为Q=F(t),则有: 其中a0为条件常数,代表t=0时刻的Q;b0为时间常数,代表持续增长率;e=2.718;t通常以年计算。 1.4.1 指数曲线 因此,有“信息爆炸”之说。然而,实际上文献信息的增长是有限的,这表明指数增长律只是一条近似规律,故产生以下改进模型。 1.4.2 逻辑曲
文档评论(0)