主控网状通信策略在web搜集系统中的应用及模拟分析.docVIP

主控网状通信策略在web搜集系统中的应用及模拟分析.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
主控网状通信策略在web搜集系统中的应用及模拟分析

主控网状通信策略在web搜集系统中的应用及模拟分析 摘要:搜索引擎所处理的对象是Web上成千上万的Web服务器通过网页之间的链接构成的海量信息,各个主机之间的联系或多或少,但都可以说是相对独立的本文研究了网状主控通信策略在web搜集系统中的应用情况。 关键词:主控网状通信策略nbsp;web搜集系统中nbsp;模拟 0nbsp;引言 搜索引擎已经成为快速、准确地在纷繁的信息网中定位自己所需东西的重要手段。然而要在搜索引擎中尽可能地找到用户所需信息,就要求搜索引擎索引尽可能多的网页。因此索引网页数量是评价一个搜索引擎好坏的关键因素之一。要索引更多的网页就要获取更多的网页,因此高效地获取网页是一个好搜索引擎的基础。然而,单机系统受限于CPU的处理能力、磁盘存储的容量,而最致命的是系统可扩展性低,扩大规模的唯一方法是换成处理能力更强的系统,巨大的成本是难以令人接受的。采用可扩展并行分布式计算机系统结构处理Web上的海量信息,成为很自然和诱人的方案,扩大分布式系统处理能力只需要增加机器即可。并行分布技术的可实现性来自计算机网络速度的不断提高,交换技术保证各节点的通信可以相互独立,而不是像共享式技术一样所有节点共享全部带宽。在10M以太网的环境下,文件传输的速度可以达到1MB/s;在100M以太网的环境下,文件传输的速度可以达到10MB/s。一个以太网帧的最大长度是1518个字节,在10M以太网的环境下传输时间是1.2毫秒;如果在千兆网环境下传输时间则是12微秒,这个时间延迟对于大多数应用都是可以忽略的。本文研究了网状主控通信策略在web搜集系统中的应用情况。 1nbsp;web搜集系统概述 一个完整的web搜集系统主要包括搜集系统、索引系统、检索系统等不同组成部分,其中Web信息搜集系统是核心部件。系统分布的核心是数据的分布。对搜集部分而言,实际是将URL分布在执行搜集任务的机器之间,保证它们搜集的URL不会重复。对查询部分,则是将索引数据分布在执行检索任务的机器之间。搜集节点之间相互协调,分配URL,保证每个Web主机的全部网页只能存在于一个搜集节点上。每个索引节点对应搜集节点搜集的网页,查询代理节点通过多播向所有索引节点发送查询命令,等待搜集到全部索引节点返回的检索结果后,对所有结果依据相关度排序,并缓存一定数量的结果,最后向用户返回结果的首页。用户的后续查询(翻页),将会在缓存命中,不必再次启动后面的网络查询,这将大大减少查询的响应时间,降低后面查询系统的负载,从而提高查询系统的性能。 2nbsp;web搜集系统的主控通信策略 2.1nbsp;主控通信策略的类型nbsp;整个Web可以看作是一张有向图G=(V,E)组成,V表示网页的URL,E表示两个网页之间存在的超链接URL,即一个网页中有另一个网页的URL。对于图中任意两个顶点Vi,Vj∈V,如果Vi到Vj有路径,则称Vi与Vj是连通的。假设存在集合Vs,其中初始仅起始URL,随着对G的遍历,不断的扩充Vs,对于G中任意一个Vi∈V,存在Vsi∈Vs,从Vsi到Vi有路径,则认为G是连通的。所以Web的搜集过程可以看作是从集合Vs出发,发现有向图G中所有V的过程。为了尽快的发现有向图G中所有的V,应该采用多个搜集分系统从多个起始URL开始。考虑到网络速度限制和集中式系统中单台机器性能的限制,应该采用分布式并行工作。因此就存在一个主控通信的问题,一般主控通信策略主要包括以下两种:①主控环形通信策略,邻近的主控之间建立连接,形成环状图。外发URL的传送可以选定顺时针或逆时针方向。②主控网状通信策略,各主控制之间两两建立连接,形成一个外发网状图。外发URL的传送可以直接传递。 主控环形通信策略的系统运行初始化简单,但是因为有多次传送外发URL可能,存在通信量大的缺点。而采用主控网状通信策略则有明显优势,速度快,而且由于每两台主控之间都有连接,当有一台主控当机的情况下或增加新主控时,能够迅速的调整URL的分配。 2.2 主控网状通信策略的应用 web搜集系统使用主控环形通信策略的结构如图1所示。 在图1中,调度模块(WebGather Server Registry,简记为WSR),存储分布式系统内所有登记主控的信息,包括各登记主控的IP和端口号。当任一个主控的信息有所改变时,WSR负责发送新的主控信息给其他主控,便于建立连接和变更连接。每个主控模块主控1,主控2,……主控N负责搜集存储属于自己范围内的网页。每一个搜集模块搜集器1,搜集器2,……搜集器N附属于相应的主控模块,负责接收所属主控发送的URL,抓取该URL指向的网页并传送回所属主控。各主控模块之间都建立有双向连接,可以全双工的工作。当任一主控发现自己的搜集模块

文档评论(0)

ailuojue4 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档