新农村信息平台建设土地资源管理子系统文献翻译 一个搜索引擎的的体系结构.docVIP

  • 3
  • 0
  • 约5.97千字
  • 约 7页
  • 2018-06-29 发布于福建
  • 举报

新农村信息平台建设土地资源管理子系统文献翻译 一个搜索引擎的的体系结构.doc

新农村信息平台建设土地资源管理子系统文献翻译 一个搜索引擎的的体系结构

2.1 .一个搜索引擎的体系结构“搜索引擎”这个词往往是一般用来形容这两种用来描述基于爬虫的搜索引擎和人类动力的目录。这两种类型的搜索引擎聚集在完全不同的方式的公司。基于爬虫的搜索引擎,如谷歌,自动创建他们的目录。他们“爬行”或“蜘蛛”的网页,然后人们通过他们所发现的网页进行搜索。一个人供电的目录,例如,Open Directory中,依赖于人类为它的目录。你为你的整个网站提交一个简单的描述或编辑写一个他们审查的网站。一个搜索引擎只是查找与你提交的描述相匹配的内容或者网站。一个典型的基于爬虫的搜索引擎有几个主要的元素。首先是蜘蛛,也叫爬虫。蜘蛛访问一个网页,读取它,然后跟随链接到该网站中的其他页面。这也就是说当有人指一个网站被“蜘蛛”或“爬行”时,蜘蛛定期地返回到该网站,如每隔一个月或两个月,寻找变化。蜘蛛发现的一切进入搜索引擎,同时也就建立了索引。该索引有时也称为目录,就像是一个巨大的书包含蜘蛛发现每个Web页面的副本。如果一个网页变化,那么这本书也会随着更新。搜索引擎软件是一个搜索引擎的第三部分。通过数以百万计的记录在索引中找到匹配的搜索和他们为了什么它认为是最相关的网页排名的程序,然后进行筛选。人们也可以使用下列元素描绘典型的搜索引擎(任何类型的) :用户界面 这是为了用户的查询的需要搜索模块 变换的查询,以一种可以理解的格式,则执行与所述折射率匹配并最终返回的结果与所需要的信息输出索引 资料库/存储库要搜索的数据该架构被描述如下图所示:用户 用户 反馈搜索引擎搜索引擎 提问 输出索引 索引 搜索模块是最重要的,其中有许多搜索引擎算法,包括PageRank的算法,用于对输出进行排序时,呈现给用户。在第二种方法中,履带被认为是“落后”的主要搜索引擎,因为它在某种程度上脱离它。2.2 .履带式架构搜索引擎如果没有一个通常以压缩格式存储搜索到的网页的合适的索引是不能够正常工作的。该索引是由专门的用来在网页中抓取新的/修改的页面(实际爬虫或蜘蛛)的机器人创建。典型的履带式架构被描述如下图所示:万维网搜索引擎万维网搜索引擎网址列表模块网址列表模块信息检索模块 文本格式和存储模块进程模块文本格式和存储模块进程模块 现在让我们考察的每个组件:信息检索模块 从网页中检索每个文件然后传递给进程模块进程模块 处理信息检索模块传递来的数据,将新发现的URL的URL列表模块以文本的形式传递给文本格式和存储模块网址列表模块 使用URL的名单回馈到检索模块。格式和存储模块 将数据转换为更好的格式,并将其存储到索引中索引 资料库/存储库中检索到的有用数据处理模块是协调模块。它控制检索模块通过URL列表模块,并准备数据进行索引。它也执行一些自动文本分析(词干,去除高频词等) ,分类(关键词聚类,文本聚类等),过滤(不是所有的文件将被存储)等等。2.3 .搜索引擎的例子搜索引擎在过去五年一直颇有研究的问题,克莱因伯格( Klein1997 )和布林的论文后( Brin1998a , Brin1998b )出现了。最初的研究是只集中于建立谷歌一样的发动机。然而,在时间的研究集中在两个主要方面:搜索个性化和提高搜索速度。前者主要是面向于开发个性化的PageRank算法( Widom2002b ,古哈, Anderson2002 , Moba2000 , Widom2002a ) 。这些算法是原始的谷歌PageRank算法的扩展和利用的文件( Brin1998a )提出的个性化载体。此外,其他研究人员一直试图建立面向主题的搜索引擎( Frankel1996 ,文物) 。虽然这些提供更好的结果的话,正常的搜索引擎,用户很难地段引擎时,愿意在不同的查询主题之间切换。一个更明智的主题是搜索引擎的速度。它涉及到爬行速度,索引存取速度和PageRank速度。未来的解决方案可能会集中在WWW上的分布式特性。一些人已经开始尝试构建分布式索引或计算的PageRank以分布式的方式( Kamvar2003b , Have1999 ) 。后一种方法被证明是相当有效的。本地PageRank是首先计算为WWW图的每个强连通分量,然后将这些队伍被合并到谷歌的PageRank的初始近似值。在第一步骤的可能的并行是显而易见的。编写的搜索引擎软件,当许多其他挑战出现。只有Web规模的成倍增长可够有原因的。每天约有7.3百万页面添加到Web和许多其他被修改或删除[ Guil2002 ] 。另外,根据[谷歌] ,目前的Web图形包含超过3十亿节点。其他挑战立刻浮现:a)无障碍。不是所有页面都可以访问在所有的时间,而不是所有页面都连接到的网络图的大部件。然而,这样的页面可能包含有价值的信息和他们的发展应该被搜索引擎所支持的(在这里,我们指的发展,支持网页/网站得到已知的快,从而有

文档评论(0)

1亿VIP精品文档

相关文档