- 3
- 0
- 约5.97千字
- 约 7页
- 2018-06-29 发布于福建
- 举报
新农村信息平台建设土地资源管理子系统文献翻译 一个搜索引擎的的体系结构
2.1 .一个搜索引擎的体系结构“搜索引擎”这个词往往是一般用来形容这两种用来描述基于爬虫的搜索引擎和人类动力的目录。这两种类型的搜索引擎聚集在完全不同的方式的公司。基于爬虫的搜索引擎,如谷歌,自动创建他们的目录。他们“爬行”或“蜘蛛”的网页,然后人们通过他们所发现的网页进行搜索。一个人供电的目录,例如,Open Directory中,依赖于人类为它的目录。你为你的整个网站提交一个简单的描述或编辑写一个他们审查的网站。一个搜索引擎只是查找与你提交的描述相匹配的内容或者网站。一个典型的基于爬虫的搜索引擎有几个主要的元素。首先是蜘蛛,也叫爬虫。蜘蛛访问一个网页,读取它,然后跟随链接到该网站中的其他页面。这也就是说当有人指一个网站被“蜘蛛”或“爬行”时,蜘蛛定期地返回到该网站,如每隔一个月或两个月,寻找变化。蜘蛛发现的一切进入搜索引擎,同时也就建立了索引。该索引有时也称为目录,就像是一个巨大的书包含蜘蛛发现每个Web页面的副本。如果一个网页变化,那么这本书也会随着更新。搜索引擎软件是一个搜索引擎的第三部分。通过数以百万计的记录在索引中找到匹配的搜索和他们为了什么它认为是最相关的网页排名的程序,然后进行筛选。人们也可以使用下列元素描绘典型的搜索引擎(任何类型的) :用户界面 这是为了用户的查询的需要搜索模块 变换的查询,以一种可以理解的格式,则执行与所述折射率匹配并最终返回的结果与所需要的信息输出索引 资料库/存储库要搜索的数据该架构被描述如下图所示:用户 用户 反馈搜索引擎搜索引擎 提问 输出索引 索引 搜索模块是最重要的,其中有许多搜索引擎算法,包括PageRank的算法,用于对输出进行排序时,呈现给用户。在第二种方法中,履带被认为是“落后”的主要搜索引擎,因为它在某种程度上脱离它。2.2 .履带式架构搜索引擎如果没有一个通常以压缩格式存储搜索到的网页的合适的索引是不能够正常工作的。该索引是由专门的用来在网页中抓取新的/修改的页面(实际爬虫或蜘蛛)的机器人创建。典型的履带式架构被描述如下图所示:万维网搜索引擎万维网搜索引擎网址列表模块网址列表模块信息检索模块 文本格式和存储模块进程模块文本格式和存储模块进程模块 现在让我们考察的每个组件:信息检索模块 从网页中检索每个文件然后传递给进程模块进程模块 处理信息检索模块传递来的数据,将新发现的URL的URL列表模块以文本的形式传递给文本格式和存储模块网址列表模块 使用URL的名单回馈到检索模块。格式和存储模块 将数据转换为更好的格式,并将其存储到索引中索引 资料库/存储库中检索到的有用数据处理模块是协调模块。它控制检索模块通过URL列表模块,并准备数据进行索引。它也执行一些自动文本分析(词干,去除高频词等) ,分类(关键词聚类,文本聚类等),过滤(不是所有的文件将被存储)等等。2.3 .搜索引擎的例子搜索引擎在过去五年一直颇有研究的问题,克莱因伯格( Klein1997 )和布林的论文后( Brin1998a , Brin1998b )出现了。最初的研究是只集中于建立谷歌一样的发动机。然而,在时间的研究集中在两个主要方面:搜索个性化和提高搜索速度。前者主要是面向于开发个性化的PageRank算法( Widom2002b ,古哈, Anderson2002 , Moba2000 , Widom2002a ) 。这些算法是原始的谷歌PageRank算法的扩展和利用的文件( Brin1998a )提出的个性化载体。此外,其他研究人员一直试图建立面向主题的搜索引擎( Frankel1996 ,文物) 。虽然这些提供更好的结果的话,正常的搜索引擎,用户很难地段引擎时,愿意在不同的查询主题之间切换。一个更明智的主题是搜索引擎的速度。它涉及到爬行速度,索引存取速度和PageRank速度。未来的解决方案可能会集中在WWW上的分布式特性。一些人已经开始尝试构建分布式索引或计算的PageRank以分布式的方式( Kamvar2003b , Have1999 ) 。后一种方法被证明是相当有效的。本地PageRank是首先计算为WWW图的每个强连通分量,然后将这些队伍被合并到谷歌的PageRank的初始近似值。在第一步骤的可能的并行是显而易见的。编写的搜索引擎软件,当许多其他挑战出现。只有Web规模的成倍增长可够有原因的。每天约有7.3百万页面添加到Web和许多其他被修改或删除[ Guil2002 ] 。另外,根据[谷歌] ,目前的Web图形包含超过3十亿节点。其他挑战立刻浮现:a)无障碍。不是所有页面都可以访问在所有的时间,而不是所有页面都连接到的网络图的大部件。然而,这样的页面可能包含有价值的信息和他们的发展应该被搜索引擎所支持的(在这里,我们指的发展,支持网页/网站得到已知的快,从而有
您可能关注的文档
- 敬一丹的基本的资料.ppt
- 数位化的资料处理.ppt
- 数值变量的资料的统计推断.ppt
- 数位学习的的研究方法评析.ppt
- 数位化公司的知识管理.ppt
- 数字化区域整体医疗改革的方案.ppt
- 数字化教学资源开发的研究.ppt
- 数字及知识时代.ppt
- 数字电路与逻辑的设计复习主要内容.ppt
- 数字电路与逻辑的设计教学的基本要求.ppt
- 2025年秋季湖南省国瓴私募基金管理有限公司面向社会公开招聘工作人员笔试参考试题附答案解析.docx
- 2025年湖南长沙市公安局芙蓉分局招聘1名普通雇员历年题库附答案解析.docx
- 2025年绍兴市文化广电旅游局公开选调下属事业单位工作人员2人笔试备考试题附答案解析.docx
- 2025年舟山岱山县长涂镇人民政府招聘编外人员1人笔试试题附答案解析.docx
- 2025年齐齐哈尔市事业单位招聘287人笔试参考试题附答案解析.docx
- 2025广东广州市花都区狮岭镇招聘专职消防员2人备考试题附答案解析.docx
- 2025广东清远市连南瑶族自治县大坪镇选拔村党组织书记助理2人参考试题附答案解析.docx
- 2025年湖南永州东安县卫健系统选聘18人笔试备考试题附答案解析.docx
- 2025福建泉州石狮农商银行秋季校园招聘20人备考试题附答案解析.docx
- 2025年甘肃省平凉市灵台县百里镇招聘大学生村文书笔试参考题库附答案解析.docx
最近下载
- 2025年大模型与智能体安全风险治理与防护腾讯.pptx VIP
- 2025年广东省华医网公需课考题答案—新质生产力与现代化产业体系.docx VIP
- 口腔解剖生理学(口腔解剖).ppt
- 山西亚鑫新能科技有限公司焦炉气减碳新材料项目环境影响报告书公示稿.pdf VIP
- 2025云南事业单位联考面试试题及答案解析.docx VIP
- 索科曼 IP中操作系列说明书.doc VIP
- 老年难愈性创面系统评估与治疗的专家共识(2025版).pdf VIP
- 2025年项目管理专业里程碑图在高层管理汇报中的应用技巧专题试卷及解析.pdf VIP
- 人工智能通识 课件 第七章 智能之躯——具身智能.pptx
- 2025-2026学年人教版三年级下册语文第一单元测试卷(含答案和解析) (3).docx VIP
原创力文档

文档评论(0)