可扩展web信息搜集系统的设计实现与应用初探-北京大学.ppt

可扩展web信息搜集系统的设计实现与应用初探-北京大学.ppt

  1. 1、本文档共40页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
可扩展web信息搜集系统的设计实现与应用初探-北京大学

可扩展Web信息搜集系统的 设计、实现与应用初探 闫宏飞 北京大学网络与分布式实验室 2002年6月14日 提纲 问题提出 可扩展网页搜集系统 网页搜集系统的动态配置 海量网页应用研究初步 工作总结 工作的背景和意义 Web发展 1989年提出-1993Mosaic-1997年底(3亿2000万) -2000年1月(超过10亿) - 2002年5月(超过20亿) ,… 中国的Web 发展 1995年底(10万到100万之间) 每年以指数形式增长 2002年1月(超过5000万),... 搜索引擎工作流程 起源于传统的信息全文检索理论 包括如下3个工作过程 搜集Web信息 应用到下列方面: 搜索引擎 网页存档 其它方面 确认网页的有效性,站点结构分析,更新通知,镜像,个人Web助理 搜集方式 目标 尽快高效地获取网页 提纲 问题提出 可扩展网页搜集系统 分布式系统 搜集策略 增量式搜集 网页搜集系统的动态配置 海量网页应用研究初步 工作总结 天网系统体系结构 集中式搜集系统 分布式搜集系统 模拟系统实验 模拟数据:大小为507MB-761,129个网页的模拟Web数据 模拟实验机器配置:一台PC机,配有双Intel550 CPU,内存为512MB,硬盘36GB,运行的操作系统为Solaris 8.0 基于上述实验环境,分别模拟实验了主控数n为2,4,8,16时四种情况 负载平衡参照序列 模拟系统负载平衡 Hash函数:H ( URL ) = ( DNS ( URL中主机部分 ) ) MOD n 模拟系统可扩展性 实际系统实验 机器配置:四台PC机,配有双Intel550 CPU,内存为512MB,硬盘36GB,运行的操作系统为Solaris 8.0 基于上述实验环境,分别实验了主控数n为1,2,3,4时四种情况 实际系统负载平衡 实际系统可扩展性 搜集策略 增量式搜集 为什么要增量式搜集 设计目标 消除已经搜集到的网页中已经失效的网页 重新搜集更新过的网页 搜集没有访问过的网页 实现增量式搜集的两种策略 检查全部网页 重新访问的网页数量不大 检查中与服务器建立连接 网页平均生命周期1.43年,同一时间存在的网页总体的半衰期大约0.99年 有选择性的检查网页 搜集部分相关研究 Harvest搜索引擎 Google搜索引擎 Internet Archive Inktomi搜索引擎 提纲 问题提出 可扩展网页搜集系统 网页搜集系统的动态配置 海量网页应用研究初步 工作总结 实现动态可配置的三种方法 采用全局Hash函数在所有运行节点间动态分配未访问URL。 基于第一种方法,同时每个主控记录着一张Web主机表,这张表在各个主控中是相同的,其中每一条记录包含一个Web主机及其所对应主控信息。 采用两阶段映射的方法 两阶段映射模型 两阶段映射举例 提纲 问题提出 可扩展网页搜集系统 网页搜集系统的动态配置 海量网页应用研究初步 中国Web大小、形状和结构 工作总结 术语介绍 Web直径 网页出度,网页入度 存在于导航功能中的称为导航影响入度 存在于认可功能中的称为认可影响入度 有效入度 权威型网页,目录型网页 天网搜集记录 基本统计数据 平均每个网站有网页548.72个。 网页文字平均为12.92 KB,网站在各省之间的分布方差为24.18。 其中教育网有8144个网站,网站分布方差为16.14; 科技网有732个网站,网站分布方差为27.68。 中国Web的形状 Web页面链接 实验数据是2,278,524 网页,58,625,283 个链接 网页有效入度/出度分布 网页入度分布 Web结构 Web社区 网络社区 C= P∪I 二分图定义 完全二分图 网络核心社区对应于完全二分图 Ccore=Pcore∪Icore 找出Web核心社区的方法 找出Web核心社区的方法(续1) 找出Web核心社区的方法(续2) 相关研究 基于Web的链接结构 PageRank HITS(Hyperlink-Induced Topic Search ) …… Web使用日志的挖掘 回顾 已发表 Hongfei YAN, Jianyong WANG, Xiaoming LI, and Lin GUO, “Architectural Design and Evaluation of an Efficient Web-crawling System, ” Journal of System and Software, Vol. 60 No. 3, March 2002. pp.185-193. YAN Hongfei, WANG Jianyong, LI Xiaoming,

文档评论(0)

ailuojue + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档