- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
本文研究工作是国家重点基础研究发展
摘 要
本文研究工作是国家重点基础研究发展规划项目 “网络环境下海
量信息组织与处理的理论与方法研究”的一部分;研究对象是 Web 这
样的动态海量信息载体;研究的主要目标是要得到一种高性能、高可
靠,支持海量网页信息搜集、分析与处理的系统结构。主要贡献包括
以下几个方面:
1) 基于对网页性质及其分布的认识,设计和实现了一种可扩展海
量 Web 信息搜集系统体系结构。结合 Web 信息搜集的基本要求和基
于 PC 机群的并行分布处理技术,该系统结构力图在搜集策略、可扩
展性、减少通信、负载平衡、任务调度、并行粒度控制等方面得到一
个很好的折衷。在仔细的理论分析和大量模拟实验的基础上,目前这
种体系结构已经成功地实现并投入运行,在系统规模从 1 到 18 台机器
变化的范围表现出很好的可扩展性,达到了 15 天搜集 5700 万网页的
性能指标。
2) 针对并行网页搜集系统的节点可能出现临时故障的问题,提出
了一种系统动态可配置方案。该方案的基础是一种从网页 URL 到搜集
节点的两阶段映射关系,它保证了当配置 (节点数)变化时系统能经
过一个短暂、安全的过渡过程达到一个新的稳态,从而保证了系统的
动态可配置性。目前这种方案已经实现,并成功应用于 “天网”搜索
引擎和 “燕穹”Web 信息博物馆的存储系统中。
3) 基于 “燕穹”Web 信息博物馆中的网页信息,探讨了海量 Web
信息应用的内容和方法。通过分析几千万网页的链接结构,给出了对
2002 年初中国 Web 的大小、形状和结构的一种定量认识,同时说明了
如何从海量网页信息中高效地识别网络社区的一种方法。
关键词:万维网,搜索引擎,可扩展 Web 信息搜集,Web 信息博物
馆,动态可配置性,负载平衡,Web 挖掘
i
Abstract
We study Web as a massive information resource with rapidly
evolving nature. In particular, we will describe in this thesis a high
performance architecture and reliable mechanism for gathering,
analyzing, and processing vast amount of web pages. The main
contributions include:
1) Based on an understanding of web page s and their distribution, a
scalable architecture for gathering web pages is proposed, and a
thorough study of the architecture is provided. Combining cluster -based
parallel processing technology with the demanding requirement of
crawling through vast amount web information, this architecture
demonstrates a reasonable trade- off in crawling strategy, communication
reduction, load balancing, task scheduling, and gra
文档评论(0)