web上节点的分布如何 - 北京大学网络与信息系统研究所.ppt

web上节点的分布如何 - 北京大学网络与信息系统研究所.ppt

web上节点的分布如何 - 北京大学网络与信息系统研究所

* /1471-2148/7/S1/S16/figure/F1 * Zipf’s law is related to power law, Refer to the appendix * Study at Notre Dame University reported g = 2.45 for outdegree distribution g = 2.1 for indegree distribution * 20世纪60年代,耶鲁大学的社会心理学家米尔格兰姆(Stanley Milgram)就设计了一个连锁信件实验。他将一套连锁信件随机发送给居住在内布拉斯加州奥马哈的160个人,信中放了一个波士顿股票经纪人的名字,信中要求每个收信人将这套信寄给自己认为是比较接近那个股票经纪人的朋友。朋友收信后照此办理。最终,大部分信在经过五、六个步骤后都抵达了该股票经纪人。六度空间的概念由此而来。 然而在这个实验中,实际上只有三分之一的信送到了收信人哪里,因此实验的完成率很低。 /itemsproof_just_six_degrees_of_separation_between_us * Users may not take shortest path, may use bookmarks or just get distracted on the way,Therefore search engines play a crucial role * MIW Ch.5.1-5.4 * 都是1997年左右完成的研究工作,PageRank促成了Google,HITS依然有学术上的意义。 PageRank Why and how it works? 重要度的度量 一阶指标(“入度”) 知晓关系:社会知名度 引用关系:认可程度 “高阶指标” 和一个著名人物“共同发表”论文的“距离”:越短似乎显得越“有荣誉”(例如,Erdos number,) Paul Erd?s 刘翔 认识甲的人可能和认识乙的人一样多,但认识乙的人都是些“重要人物”,于是通常会认为乙比甲重要 不仅是人,论文也是一样,被重要的文章引用的文章可能就比较重要些 谁重要一些? 如何用一个模型来刻画这种感觉,使算出来的“重要性”反映这种感觉? 声望模型Reputation Model 给定一个群体S,及其在上面的一个“知晓”关系R,于是定义了一个有向“关系图”G。用邻接矩阵E表示,E(i,j)=1,当且仅当i “听说过” j(注意这里没有程度之分)。我们希望确定p(i):所有个体i∈S的“声望” 模型一:p(i) = ∑E[k,i],k=1,…,n,即i在G上的“入度”,亦即E的第i列的1的个数 清楚、好计算;但是“不够好” 模型二:p(i) = ∑E[k,i]p(k),k=1,…,n,即i的声望等于知晓他的人的声望之和 清楚、显得要更“精确些”;但是,好计算吗? 声望模型二 对于所有i,p(i) = ∑E[k,i]p(k),k=1,…,n 也就是,记p = (p(1), p(2), …, p(n))T, p = ETp 问题是: 这个方程存在解吗? 如果存在,如何得到? 如果不存在,该怎么办? 一般来讲:这个方程的非0解是不存在的! p = ETp 的不存在例 S = {1,2,3}, R = {1,2,1,3,2,3} E = ((0,1,1),(0,0,1),(0,0,0)) ET = ((0,0,0),(1,0,0),(1,1,0)) 不难看到,方程的成立?p(1)=0?p(2)=0?p(3)=0 一般来讲,p = ETp,意味着要求ET有特征值1,这是很难得的。 1 2 3 先前那4个点的例子也无解 p = ETp ? (I - ET)p = 0 线性代数讲,此方程组有非0解,仅当行列式|I - ET| = 0 但我们算得|I - ET| = 2 即使有解,还有可能不唯一! S = {1,2,3}, R = {1,2,2,3,3,1} 不难看出任何 p(1) = p(2) = p(3) 都是解 怎么办? “Random Walker”模型 设想有一个永不休止、在网上浏览网页的人,随机选择一个链出的链接继续访问。我们问,在稳态情况下(足够长时间后),他会正在看哪一篇网页呢? 等价于:稳态情况下,每个网页v会有一个被访问的概率,p(v),它可以作为网页的重要程度的度量。 我们可以合理地设想:此时到达v的概率,依赖于上一个时刻到达“链向”v的网页的概率,以及那些网页中超链的个数。 Random walker model p(v) = ∑E[u,v]*p(u)/du, over u 这里,du是网页u的“出度”,∑E[u,v] over u。

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档