长尾分布、幂律的产生机制和西蒙模型.pdfVIP

  • 42
  • 0
  • 约1.7万字
  • 约 6页
  • 2017-10-15 发布于湖北
  • 举报

长尾分布、幂律的产生机制和西蒙模型.pdf

长尾分布、幂律的产生机制和西蒙模型

2008中国发展进程中的管理科学与工程(卷I) 长尾分布、幂律的产生机制和西蒙模型 山 石,邱 红 上海大学国际工商与管理学院,上海200444 shanshihill@126.corn,hongqiu]214@126.com 摘要:幂律广泛存在于物理学、生物学、经济学、计算机科学、统计学、社会学等渚多领域。本文试图回答长尾分布的形 成机制这一问题,讨论与长尾分布紧密相关的幂律分布,讨论长尾分布(即齐普夫定律)和幂律分布的关系以及在互联网背景 下怎样重新构造两蒙模型,最后研究互联网背景下两蒙模型的一种推广形式。 关键词:幂律;齐普夫定律;西蒙模删;长尾分布 小,g(r)趋向于零的速度就越慢,画出来的曲线就越是 l 引 言 拖曳着一条长长的尾巴。长尾分布简单的负幂形式描 互联网上从歌曲和软件的下载、网页的点击到网 绘了并不简单的需求的二苇性:大热门(名牌产品)仍 上店铺的销售,都呈现长尾分布的特征。长尾分布也 然拥有优势,只是已不能决定一切;冷门不再默默无 与对流行事物进行统计排名的“排行榜”文化有关。网 闻,总体实力不可小觑,甚至可以与大热门平分天下。 上音乐资料库容量巨大,下载方式非常便捷。把曲目 那么,形成长尾分布的机制是什么呢?本文尝试回答这 按照下载最排序,可近似地得到一条递减曲线。在曲 些问题。本文第二部分将引进幂律分布,讨论长尾分布 线的头部,热门曲目被大量下载。接下来,随着流行程 (即齐普夫定律)与幂律分布的关系;第三部分将介绍西 度的降低(对应为序号的增大),曲线徒然下降。但有 蒙模型,讨论在互联网背景下怎样蓖新构造西蒙模型; 趣的是,在尾部曲线并没有迅速坠落到零,而是极其缓 第四部分将研究互联网背景下两蒙模型的一种推广形 慢地贴近于横轴,粗看上去几乎与横轴平行延伸(这说 式,在引进了一系列新的分析技术以后,西蒙模型可以 明很不热门的曲日仍然保持着一定的下载率)。这种 相当完整地刻l田I互联网动态过程的数量特征。 特殊的排序(即排名)与下载量之间的对应关系就是长 2长尾分布、齐普夫定律和幂律分布 尾分布。长尾分布是由选择来源的丰富性(如大量供 下载的曲目)造成的。一旦多样性选择需求不再因为 2.1幂律分布 来源匮乏而受到限制,长尾现象便会自然发生。2005 我们以,(z)表示某一数量指标z的发生次数, Ander— 年,《连线》杂志主编克里斯·安德逊(Chris ,(z)一“1就称为幂律或幂律分布,在本文中,以 son)L10出版了《长尾理论》(TheLongTail)一书,全书,(z)一∞叫州’,口o,cO表示幂律或幂律分布。同 以长尾分布为主线,研究了当今世界媒体正在经历的 样,若户(志)为离散型随机变量的概率分布律(简称分 巨大变革,把握了世界经济的变化核心,敏锐地洞察到 布),而户(五)满足p(忌)~破-‘汁¨,aO,cO,其中“~” 了下一个时代的互联网革命和机遇。 表示两边的数量当忌趋向于无穷时为等价无穷小量, 以前,大规模批量生产统治了一切。产品以单一 也称户(惫)为幂律分布。 规格大批量生产可明显降低成本,再投入巨大的推广 2.2长尾分布、齐普夫定律和幂律 费用,大商家足以让竞争对手望而却步,用户也只能面 在20世纪30年代,美国哈佛大学语言学家齐普 对有限的选择来源。而今天,以web2.0为标志的去夫发现,将一文本中的词按照它们在文本中的出现(或 中心化和用户交互正在成为时代潮流,互联网技术又 使用)次数由高至低排列,以r表示序号(又称等级), 使人们获得了低廉而高效的推广手段,于是,潜藏在长

文档评论(0)

1亿VIP精品文档

相关文档