可扩展web信息搜集系统的设计实现与应用初探-北京大学.ppt

下载文档 降价啦

1
0
约7.5千字
约 40页
2017-09-11 发布于天津
举报
版权申诉
保障服务

可扩展web信息搜集系统的设计实现与应用初探-北京大学.ppt

1、本文档共40页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

可扩展web信息搜集系统的设计实现与应用初探-北京大学

可扩展Web信息搜集系统的设计、实现与应用初探闫宏飞北京大学网络与分布式实验室 2002年6月14日提纲问题提出可扩展网页搜集系统网页搜集系统的动态配置海量网页应用研究初步工作总结工作的背景和意义 Web发展 1989年提出-1993Mosaic-1997年底(3亿2000万） -2000年1月(超过10亿) - 2002年5月(超过20亿) ，… 中国的Web 发展 1995年底(10万到100万之间) 每年以指数形式增长 2002年1月(超过5000万)，... 搜索引擎工作流程起源于传统的信息全文检索理论包括如下3个工作过程搜集Web信息应用到下列方面：搜索引擎网页存档其它方面确认网页的有效性，站点结构分析，更新通知，镜像，个人Web助理搜集方式目标尽快高效地获取网页提纲问题提出可扩展网页搜集系统分布式系统搜集策略增量式搜集网页搜集系统的动态配置海量网页应用研究初步工作总结天网系统体系结构集中式搜集系统分布式搜集系统模拟系统实验模拟数据：大小为507MB-761,129个网页的模拟Web数据模拟实验机器配置：一台PC机，配有双Intel550 CPU，内存为512MB，硬盘36GB，运行的操作系统为Solaris 8.0 基于上述实验环境，分别模拟实验了主控数n为2，4，8，16时四种情况负载平衡参照序列模拟系统负载平衡 Hash函数：H ( URL ) = ( DNS ( URL中主机部分 ) ) MOD n 模拟系统可扩展性实际系统实验机器配置：四台PC机，配有双Intel550 CPU，内存为512MB，硬盘36GB，运行的操作系统为Solaris 8.0 基于上述实验环境，分别实验了主控数n为1，2，3，4时四种情况实际系统负载平衡实际系统可扩展性搜集策略增量式搜集为什么要增量式搜集设计目标消除已经搜集到的网页中已经失效的网页重新搜集更新过的网页搜集没有访问过的网页实现增量式搜集的两种策略检查全部网页重新访问的网页数量不大检查中与服务器建立连接网页平均生命周期1.43年，同一时间存在的网页总体的半衰期大约0.99年有选择性的检查网页搜集部分相关研究 Harvest搜索引擎 Google搜索引擎 Internet Archive Inktomi搜索引擎提纲问题提出可扩展网页搜集系统网页搜集系统的动态配置海量网页应用研究初步工作总结实现动态可配置的三种方法采用全局Hash函数在所有运行节点间动态分配未访问URL。基于第一种方法，同时每个主控记录着一张Web主机表，这张表在各个主控中是相同的，其中每一条记录包含一个Web主机及其所对应主控信息。采用两阶段映射的方法两阶段映射模型两阶段映射举例提纲问题提出可扩展网页搜集系统网页搜集系统的动态配置海量网页应用研究初步中国Web大小、形状和结构工作总结术语介绍 Web直径网页出度，网页入度存在于导航功能中的称为导航影响入度存在于认可功能中的称为认可影响入度有效入度权威型网页，目录型网页天网搜集记录基本统计数据平均每个网站有网页548.72个。网页文字平均为12.92 KB，网站在各省之间的分布方差为24.18。其中教育网有8144个网站，网站分布方差为16.14；科技网有732个网站，网站分布方差为27.68。中国Web的形状 Web页面链接实验数据是2,278,524 网页，58,625,283 个链接网页有效入度/出度分布网页入度分布 Web结构 Web社区网络社区 C= P∪I 二分图定义完全二分图网络核心社区对应于完全二分图 Ccore=Pcore∪Icore 找出Web核心社区的方法找出Web核心社区的方法(续1) 找出Web核心社区的方法(续2) 相关研究基于Web的链接结构 PageRank HITS(Hyperlink-Induced Topic Search ) …… Web使用日志的挖掘回顾已发表 Hongfei YAN, Jianyong WANG, Xiaoming LI, and Lin GUO, “Architectural Design and Evaluation of an Efficient Web-crawling System, ” Journal of System and Software, Vol. 60 No. 3, March 2002. pp.185-193. YAN Hongfei, WANG Jianyong, LI Xiaoming,