- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
分布式FTP搜索引擎方案书
(A类)
院 (系): 应用科技学院
专 业: (三号宋体居中)
班 级: (三号宋体居中)
学 号: 三号Times new Roman居中
姓 名: (三号宋体居中)
指导教师: (三号宋体居中)
填表日期: 2008 年 3 月 1 日
引言
随着计算机和网络的飞速发展与全球信息化进程的日益深入,Internet正以前所未有的速度发展,并深刻地改变着人类的生活方式。在这个阶段Internet的规模迅速扩大。据统计,目前全球250多个国家中己经有 240个国家连接上了Internet。全球Internet用户数己经超过7亿人,而且每年仍以惊人的速度增长;伴随Internet规模的迅速扩大,网络信息数量呈爆炸式增长。数量之大真可谓 “浩如烟海”,用户要在如此浩瀚的信息海洋里寻找信息,必然会大海捞针”无功而返。
搜索引擎正是为了解决这个”迷航”问题而出现的技术。搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而搜索引擎的核心是网络导航服务。搜索引擎是一个网络门户,他们提供新闻,在线图书馆,词典,以及其它网络资源,他们提供了不仅仅是网站搜索的服务,他们的涉及面越来越广,也越来越有用。提供的导航服务已经成为互联网上非常重要的网络服务,搜索引擎站点也被美誉为”网络门户”。据统计,搜索引擎己成为仅次于电子邮件(Email)的第二大被网络用户使用最多的服务。
目前从网络文件资源来源看,FTP仍是互联网最主要的文件服务,在FTP文件服务器上保存有大量的各种各样的共享软件、技术资料和多媒体数据等文件,而每个 FTP文件服务器都有若干个目录,其目录和文件结构比较复杂。要在FTP服务器上逐一查找到自己需要的文件,不是一件容易的事情:要在多个FTP服务器上查找文件更是困难。针对网络FTP服务的文件搜索引擎可以很好的解决上述问题,同时对WWW搜索引擎而言,使用FTP搜索引擎来寻找软件、图像、电影和音乐等文件则更为便捷。
本文将从该FTP搜索引擎系统的体系结构与原理算法出发阐述基于WEB的分布式FTP搜索引擎系统的设计与实现方案。并最终实现一个高速、海量、功能强大而又基于WEB的分布式FTP搜索引擎系统,同时也希望能为学校教育网络用户提供极大方便。
1 搜索引擎概述
分布式FTP搜索引擎的是通过搜集各个匿名 FTP服务器提供的目录文件信息列表,对收集到文件信息的进行组织和格式化、建立双字母倒排索引、再通过索引库进行查询与归并得到用户所查询的对应得文件信息,并最终通过WEB返回给用户。由于 FTP搜索引擎专门针对各种文件,因而相对WWW搜索引擎,寻找软件、图像、电影和音乐等文件时,使用 FTP搜索引擎更加便捷。
1.1 FTP搜索引擎简介
最早的FTP搜索引擎是基于文本显示的Archie. Archie实际上是一个大型的数据库与这个大型数据库相关联的一套检索方法。该数据库中包括大量可通过FTP下载的文件资源的有关信息,包括这些资源的文件名、文件长度、存放该文件的计算机名及目录名等。可以通过远程登录到Archie主机来使用Archie服务器,用Archie作为登录名。一旦登录成功,一个Archie程序将自动执行,这时一次输入一条命令,告诉Archie想查寻的内容,Archie将检索自己的数据库并显示检索的结果。如果用户对自己想要的东西并不太清楚,Archie还提供“what is”服务项目,该服务提供成千上万个程序、数据文件和文档的简短说明。
WWW的出现改变了Archie在文件搜索方面的统治地位,在美观、方便的WWW页面上搜索FTP文件成为用户的自然需求,即人们需要有一种基于Web的FTP搜索引擎。在功能上,基于Web的FTP搜索引擎实现的功能与Archie基本一样,都是对用户提交的查询匹配串,找到可以下载的FTP站点链接。但基于Web的FTP搜索引擎也有很多特色的功能,比如天网FTP搜索引擎的文件分类功能等等。基于Web的FTP搜索引擎也采用了很多WWW搜索引擎的策略,比如使用Spider自动收集数据,采用倒排索引,智能换页链接技术以及大型FTP搜索引擎必须采用的分布收集和服务技术。为此,课题开发出基于WEB的分布式FTP搜索引擎系统。
1.2 国内外FTP搜索引擎
1.2.1国外FTP搜索引擎
在国外的FTP搜索引擎中,是功能最为领先的,它支持了包括站点快照和文件分类等新兴功能,而且其数据量非常大,但速度相对比较慢,还是秒级的查询速度。P也是一个很成功
您可能关注的文档
最近下载
- 中医妇科临床诊疗指南——妊娠恶阻.pdf
- 猪咬伤诊疗规范考试试卷试题及参考答案.docx VIP
- 海蜇蜇伤诊疗规范考试试卷试题及参考答案.docx VIP
- 2023年云南文山州砚山县江那镇人民政府村(社区)后备干部及社会服务岗位人员招聘笔试参考题库附带答案详解.pdf VIP
- 第二阶段课件11检索概论ii.pptx VIP
- 狂犬病诊疗规范2021年版考试试卷试题及参考答案.docx VIP
- 2024年ADA糖尿病诊疗标准更新解读课件.pptx VIP
- 通达信公式编写初中高级全套教程(附:通达信全部函数表).pdf VIP
- 译林牛津版苏教八年级上册英语词汇表(表格版)直接打印.pdf VIP
- 2023年云南文山州砚山县江那镇村(社区)后备干部及社会服务岗位人员招聘笔试参考题库附带答案详解.pdf VIP
文档评论(0)