- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于ROBOT 的农业信息搜索引擎设计
常为领 孙瑞志 高万林
中国农业大学信息与电气工程学院(100083)
Email: changsu3@163.com
摘 要:搜索引擎能够帮助人们从网上迅速获取所需要的信息或资源,但由于网络信息爆炸
式的增长,每一次搜索所获取的结果中能满足用户要求的信息与大量的无用信息混杂在一
起,需要用户手工挑选,严重的影响了工作效率。因此,开发出一种针对特定用户或特定行
业的搜索引擎具有现实意义,本文介绍了一种基于 ROBOT的农业信息搜索引擎的设计方法。
关键词: ROBOT SPIDER 搜索引擎 检索
中图分类号 TP311
1. 引言
信息的飞速增长,使诸如 Yahoo 、Google、百度等大型搜索引擎成为人们查找信息的首
选工具。为用户提供目录式搜索分类服务的第一代互联网搜索引擎诞生于20 世纪90 年代初。
1994 年春,杨致远和大卫.费罗建立了自己的网络指南信息库,后来,他们又将信息库升级
为允许用户自己定制的数据库。由此,一直被互联网上庞杂信息所困扰着的用户得到了解放。
但随着互联网所承载的信息资源规模迅速扩展,第一代搜索引擎很快便无法满足人们查找信
息的需要,于是第二代搜索引擎应运而生。它是以超链接分析技术为基础的大规模网页搜索,
可根据“关键词”的分布情况对页面进行分类和排序。在这一领域的技术先驱包括 Overture、
Inktomi 和 Altavista 等公司,尤其是 Google,凭借着其发明的“页面重要性分析”(PageRank ,
参见文献[2])技术,还有成功的商业动作,Google 避开了 AltaVista 等互联网搜索业先驱者被
收购的覆辙,一跃成为全世界球互联网公司的佼佼者。被称为第三代的未来搜索技术正处在
研发阶段,其目标是从数据库、网页、文档或音频和视频剪辑中自动提取信息;识别人名、
地点、组织、日期、金额并且寻找其中的关联性;同时随着企业拓展呼叫中心并转向基于
IP 电话系统、以及政府在智能化及国家安全信息技术上投入巨资,挖掘声音和图像含义的
重要性日益凸现。目前,信息搜索技术的研究方向有:关键字搜索、模式识别、语义分析和
神经网络。
与第一代搜索引擎相比,第二代搜索工具能够为用户提供更广阔的搜索范围和更准确的
结果,但仍不足以满足日渐复杂的用户需求,目前流行的搜索引擎都是一些所谓全能的搜索
引擎,盲目追求搜索范围的大小,忽视搜索质量,如 2005 年 8 月,雅虎宣称其搜索数据库
涉及的文件数量达到 192 亿,而 Google 此前也宣称其搜索文件范围为 81 亿,结果导致搜索
的结果无用、冗余信息过多,往往将用户需要的结果淹没在无用信息的海洋中。因此,我们
对面向专业领域的搜索引擎的构造技术——农业信息的搜索引擎进行了研究,期望以尽可能
少的搜索结果最大限度地满足用户的需求。
2. 基于Robot搜索引擎的自动检索技术[1]
Robot 或称 Spider (蜘蛛程序)是第二代搜索引擎的核心。Robot 是一个能够沿着
- 1 -
链接漫游 Web 文档集合的程序。它一般驻留在服务器上,通过给定的一些 URL ,它能够利
用像 HTTP 这样的协议读取相应文档,然后以文档中包括的未访问过的 URL 作为新的起点,
继续进行漫游,直到没有满足条件的新 URL 为止。因此,用户只要提供一个初始 URL ,Robot
就能够追溯并发现所有从该 URL 直接或间接可达的文档,并为之建立索引。基于 Robot 的
搜索引擎一般要定期访问大多数以前搜集的网页,刷新索引,以反映出网页的更新情况,去
除一些死链接,网页的部分内容和变化情况将会反映到用户查询的结果中。
它的工作原理通常是:首先是由自动搜索软件 Robot 访问一个站点,并通过其中的
链接阅读该站点的页面,然后将获得的站点信息形成一个巨大的网页信息库以备用户查询。
当用户通过查询内容提出检索要求时,该软件就会在其数据库中找到相关内容,然后
文档评论(0)