网络结构与效应原理:第14章 网络信息的链接分析.ppt

网络结构与效应原理:第14章 网络信息的链接分析.ppt

  1. 1、本文档共25页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

********网络信息的链接分析

现代搜索引擎的两方面核心技术之一(以第14章为基础)**搜索引擎关心的基本问题计算机显示屏一次只能显示5-6个结果,典型搜索引擎掌握的网页超过10亿对用户提交的一个查询,如何从这种海量网页集合中将最可能满足用户需求的少数几个结果找出来,展现在计算机显示屏上?“最可能满足”的多义性同一个查询,不同的需求(苹果,病毒等);不同的查询,相同的需求(电脑,计算机等)*传统信息检索技术的要点

(informationretrieval,IR)基于词语之间的相关性(relevance)similarity(q,d)≈Σscore(d,term)传统应用背景文档集合:图书,规范的文献查询:主题词,关键词查询意图:获取与查询词有关的书籍和文章用户:图书管理人员“查询目标包含查询词”是一个合理假设在形成查询词的时候就有这样的潜意识*现在查找学术文献有类似预期但人们在网络上不光是要找“文献”,而是多方面意义的“信息”例如,人们给出“北京大学”查询词,多数会有什么预期?查询“大学”呢?(意图会相当多样化)*为什么能恰到好处?主页放在最前面,一定不是因为其中包含许多“北京大学”字样很可能是由于许多包含“北京大学”字样的网页指向它利用链接中隐含的信息*这个两个结果哪一个较好?*有效利用链接关系蕴含的信息,是搜索引擎超越传统信息检索系统、技术进步的最重要标志Webpage之间的链接有两层含义:关系,描述*餐馆推荐问题甲乙丙丁新辣道***321海底捞***320麦当劳*16五方院**215俏江南**2138667不能完全区分看推荐人的“水平”完全区分开来*反复改进原理(例)假设查询词“newspaper”左边是与“newspaper”字面上相关的网页。右边是它们所指向的网页,得到的“票数”表示一定的认可度*反复改进原理(续)

(principleofrepeatedimprovement)也可以反过来评估“推荐者”的分量然后可以在考虑推荐者分量的情况下重新评估网站相对于“newspaper”的重要性(相当于加权评分)*反复改进原理这个过程可以反复进行下去*网页的“中枢”与“权威”性万维网中一篇网页的两面属性。观念:被很多网页指向:权威性高,认可度高指向很多网页:中枢性强HITS算法:计算网页的权威值(auth)和中枢值(hub)Hyperlink-InducedTopicSearch*auth(p)和hub(p)的计算方法输入:一个有向图初始化:对于每一个节点p,权威值auth(p)=1,中枢值hub(p)=1利用中枢值更新权威值对于每一个节点p,让auth(p)等于指向p的所有节点q的hub(q)之和利用权威值更新中枢值对于每一个节点p,让hub(p)等于p指向的所有节点q的auth(q)之和重复上述两步若干(k)次在搜索引擎领域,auth值或hub值高的网页,有时分别称为“权威网页”和“中枢网页”。一篇网页可以兼具二者。*归一化与极限数值随迭代次数递增Auth和hub值的意义在于相对大小在每一轮结束后做归一化:值/总和归一化结果随迭代次数趋向于一个极限相继两次迭代的值不变极限与初值无关,即存在“均衡”*PageRank:节点的一种重要性测度搜索引擎形成查询结果网页排序的重要参数基本要领:每一个节点将自己的值均分给出向邻居每个节点将从邻居收到的值加起来多次迭代!*上图的算例经过约70次迭代,最后收敛到:A=0.615,B=0.923,C=D=1.231*PageRank基本算法描述输入:一个有n个节点的网络(有向图),设所有节点的PageRank初始值为1/n。选择操作的步骤数k对PageRank做k次更新操作,每次使用以下规则:每个节点将自己当前的PageRank值通过出向链接均分传递给所指向的节点若没有出向链接,则认为传递给自己(或者说保留)每个节点以从入向链接获得的(包括可能自传的)所有值之和更新它的PageRank*********

您可能关注的文档

文档评论(0)

胖鸥 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档