第8章链接结构分析子系统设计及核心算法祥解.doc

第8章链接结构分析子系统设计及核心算法祥解.doc

  1. 1、本文档共27页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第8章链接结构分析子系统设计及核心算法祥解.doc

第 8 章 链接结构分析子系统设计及核心算法 本章内容: 万维网链接结构图及特性; 链接结构分析方法的形式化基础; 链接结构分析Page Rank 算法、HITS 算法; 链接结构分析结果在搜索结果排序中的应用。 8.1 万维网链接结构图 万维网的链接结构可用有向图来描述,网页是节点,超链接是有向边。 从源网页指向目的网页的超链接,为源网页的“出链接”,为目的网页的“入链接”。 节点 A-H 表示网页; 链接关系用有向边来表示; 网页 A、B、C 之间的双向边,表示三个网页之间相互链接; 网页F与G各自有一个指向自身的有向边。 链接结构关系图的邻接矩阵描述。 邻接矩阵是用来描述图中节点邻接关系的一种方式,设n为链接结构图 Graph 的节点规模,则邻接矩阵 M 是一个n*n的矩阵,其中某个元素 mi,j的取值满足: 图 8.1 所示链接结构图,其邻接矩阵如下: 万维网链接图GWeb (V, E) V:节点集合,V = { v1 , v2 , v3 , … , vn},节点数|V| = n ; E :边集合, E = { e1 , e2 , e3 , … ,em},边数|E|=m 。 将万维网的整个链接结构图作为对象来研究不仅对理解万维网的各种属性有直接的意义,同时还对搜索引擎领域的相关算法研究也有着重要的帮助。 很多实验和观察促进了万维网链接图结构的研究。 针对图 GWeb ( V , E ),研究; V、E的规模; 拓扑结构; 节点入度、出度分布。 图G ( V , E)的某节点所关联的边数称为该节点的“度”。 对于图 GWeb ( V , E)而言,某节点的入度就是指以该节点作为目的网页的超链接数(该节点入链接数); 某节点的出度则是指以该节点为源网页的超链接数(该节点出链接数)。 8.1.1 万维网链接图的规模 GWeb (V, E)规模难以统计 图中的节点存在形式复杂; 非自由访问的网页(网页对用户访问加以限制,如采取登录策略等); 自由访问的网页; 传统形式的静态页面; 随用户查询需求在服务器端实时生成的动态页面; 用 Ajax 技术生成的 URL 相同但内容千差万别的页面; (2) 超链接的界定,存在诸多困难; “博客日历”,每个日期都是一个超链接。 服务器端自动生成的超链接VS网页作者手工编辑添加的链接。 GWeb ( V , E)的节点集合规模 通过域名注册服务商可统计网站、域名数量且较为准确; 统计网站涉及的网页数目就会面临上面提到的问题; 研究中通常用搜索引擎的索引规模来估算万维网链接图的节点规模; 没被任何一个搜索引擎收录的网页,被用户访问到的可能性微乎其微; 2008年7月,谷歌索引量1万亿网页,一定程度上反映了GWeb (V, E)节点集合的规模。 GWeb ( V , E)的边集合规模 估计边集合规模更困难; 超链接的添加不需要登记、备案,各大搜索引擎也很少公布统计数据; 只能通过实验性万维网语料库的相关数据对GWeb (V , E)的边集合规模有一个概括性的认识; AltaVista 语料库,链接关系图包含 2.03 亿个网页、14.66 亿条链接。 Clueweb09 语料库,链接关系图包含的节点数为 1040 809705个,对应的出链接数为7944351835个。 sogouT语料库,链接关系图包含1.39 亿个网页、33 . 4亿条链接。 从这些语料库,可以估计,边集合的规模要大于节点集合的规模,约为节点集合规模的几到几十倍。 8.1.2 万维网链接图的连通情况 定义:导出子图 给定 G=(V, E),如果存在另外一个图 G/=(V/,E/),满足V/包含于V,E/包含于E,则称G/是G的一个子图。特别地,如果V/包含于V,且E/包含了在节点子集V/之间的所有边,则称G/是G的导出子图。 定义:强连通子图 给定一个有向图,该有向图的一个强连通子图是指由一部分节点组成的一个导出子图,对于该子图中其中的任意两个节点u和v,都存在一条路径使得从u可以访问到v。 性质: 1、一个有向图中可有多个强连通子图。 2、强连通子图之间不存在公有节点;否则可以合二为一。 对万维网连接图,每个强连通子图都代表着构成该子图的节点是相互连通的,通过超链接通过一个网页可访问另一个。 定义:弱连通子图 给定一个有向图,该有向图的一个弱连通子图是指由一部分节点组成的一个导出子图,对于该子图中其中的任意两个节点u和v,都存在一条无向路径使得从u可以访问到v。 对于万维网链接图,重点考察其包含的强、弱连通子图的规模分布情况,借此了解整个链接图的拓扑结构和连通情况。 2000年,Broder的研究成果,万维网链接结构图的强、弱连通子图的规模分布情况如下图所示。 图中,横轴为连通子图规模,纵轴为连通子图数量; 横轴、纵

文档评论(0)

光光文挡 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档