SE4Topic掀起你的盖头来.PDFVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
SE4Topic掀起你的盖头来

SE4Topic 掀起你的盖头来 Organized by Hongfei Yan, May 2003 说起“天网”搜索引擎(/ ),大家都是耳闻已久了。“天网”是北京 大学网络实验室研制开发的,历经8 年,尽管没有商业化,在国内搜索引擎领域却占有举足 轻重的地位。SE4Topic 是从“天网”搜索引擎定制而来,天生具有“天网”搜索引擎的技 术指标。因此下面的叙述是围绕“天网”搜索引擎来展开的。 系统概貌 整个“天网”系统构建于GNU/Linux 之上,由搜集,预处理,检索3 个子系统构成。5 台机器负责从Web 上搜集网页,20 台机器做预处理,20 台机器做索引,1 台机器作为Web 查询服务节点。此外有一台网关机器,隔绝外网与内网,保证系统安全运行。所有设备通过 100Mb/1Gb 的交换机连接,如图1 所示。 图1 天网体系结构图 1 搜集系统 搜集系统的目标是高效搜集尽可能多的网页,同时具有如下特点: 1. 各节点的负载均衡,即保证在一定时间内每个节点负责搜集的 Web 主机数目基本 相等。从而保证每个节点负责搜集的网页数目基本相等,充分发挥并行分布式体系 结构的优点。 2. 尽可能减少搜集节点之间网络通信量,即各节点之间通信量尽量少。在 Web 搜集 系统中,采用并行分布式体系结构,各个节点并不是独立的,因为一个节点可能发 现不属于自己负责搜集Web 主机下的网页,此时应该传送给相应负责搜集的主机。 3. 具有可扩展性,即当任务扩大N 倍,系统处理和存储能力也扩大N 倍时(节点数 目扩大N 倍),单个系统性能波动较小。从而保证整个系统的可扩展性。 4. 系统可以动态变化。搜集系统面对的是海量信息,通常会长期连续运转。要保证工 作期间,无论是硬件故障还是人为干预造成的系统结构变化(即节点数目的增减) 都不影响系统的性能。 图2 分布搜集结构图 图2 所示为系统运行示意图。其中的协调进程之间两两建立连接通信,形成一个逻辑全 互连关系,直接传递它们之间的交叉URL 。调度模块 (记为WSR )有特别的意义,它维护 系统内所有登记协调进程的信息,包括它们的IP 和端口号。当任一个协调进程的信息有所 改变时,WSR 负责将更新的信息转送给其他协调进程,便于建立连接和变更连接。协调进 程从0 开始编号,直到n-1 ,各自负责收集存储属于自己范围内的网页。每个节点上运行若 干抓取进程,它们在协调进程的管理下工作。抓取进程负责接收从所属协调进程发送的 URL ,抓取该URL 指向的网页并传送回给所属协调进程。各协调进程之间都建立有双向连 接,可以全双工的工作。当任一协调进程发现自己的收集模块发回的网页中包含不属于自己 的URL 时,就将此URL 传送给负责它的协调进程去处理。为减少通讯量,各协调进程之间 只传送URL 。 2 预处理系统 Web 上存在网页内容转载的情况,被转载的网页称为原始网页的镜像。如果是热门话 题、重大新闻或经典文章,则转载的频率会很高。因此,Web 上存在大量的镜像网页。在 搜索引擎中,需要将搜集到的网页中的镜像网页去掉,而后再建索引提供服务,从而保证用 户查询时不会出现大量内容重复的网页。去掉镜像网页的过程被称为消重。由于大量的镜像 网页并不是对原始网页的简单拷贝,而是将要转载的内容放在新的模板中再提供服务。因此 模板中的内容就会干扰消重程序对镜像网页的判断,从而导致错误消重。常见的错误消重有 以下两种情况: 1. 相同的内容,由于放在了不同的模板中导致应该被消掉但实际上被消重程序判断为 非镜像网页而保留。 2. 不同的内容,由于放在了相同的模板中导致不应该被消掉但实际上被消重程序判断 为镜像网页而消掉。 从实际系统中也可以看出,模板因素是导致消重不够准确的一个主要原因。鉴于此,在 做消重之前,先对网页进行净化,去掉网页的模板内容

文档评论(0)

ldj215322 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档