- 1、本文档共25页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于JAVA语言的搜索引擎开发论文
基
摘 要:随着技术的发展普及,在短的时间内搜索全面且准确的信息越来越关注本文在介绍的基础上,的过程。关键词:JAVA;搜索引擎;机器人evelopment of Search Engines Based on Java Language
Abstract: With the development and universality of computer and network technology, how to search the comprehensive and accurate information from mass network data in a short time which become a serious problem that many people pay attention to. Therefore, it is important to develop network search engine and study it s technology. This paper develops a network search engine with JAVA which based on robot and full text index technology. Using this system, you can search the website which you want, when you entered the keywords. Also, it can fulfill the duty of search. According to the introduction of the development technology of network search engine, this paper carries on a detailed description to the development and process of search engine which based on robot and full text index technology.
Key Words: JAVA; Search engine; Robot
1. 引言
随着社会的不断进步和信息科学网络上的信息资源越来越多,公用数据库的飞速发展为用户查询各种信息提供了可能。搜索引擎在非常短的时间内搜索全面并且准确的信息。传统信息检索系统的性能参数——召回率和精度同样可以衡量一个搜索引擎的性能。召回率是检索出的相关文档数和文档库中所有的相关文档数的比率,衡量检索系统(搜索引擎)的查全率;精度是检索出的相关文档数与检索出的文档总数的比率,衡量检索系统(搜索引擎)的查准率。对于一个检索系统来讲,召回率和精度不可能两全其美:召回率高时,精度低;精度高时,召回率低。因为没有一个搜索引擎系统能够搜集到所有的WEB网页,所以召回率很难计算。对于网民来说,互联网上的信息不是不够,而是“过剩”,如何精确查找到信息是大家所关心的问题。因此,目前的搜索引擎系统都非常关心精度。
搜狐()天网(:8000/gbindex.htm)新浪()悠游()搜索客)茉莉之窗()蕃薯藤(http://.tw)大多数中文搜索引擎的查询方式较为单一采用的技术比较落后搜索引擎机器人技术中文文本的过滤信息分流机制分词技术与XML技术的有机结合机器人机器人搜索引擎世界上第一个用于监测互联网发展规模的“机器人”程序是Matthew Gray开发的World wide Web Wanderer。刚开始它只用来统计互联网上的服务器数量,后来发展为检索网站域名。与Wanderer相对应,Martin Koster于1993年10月创建了ALIWEB,它是Archie的HTTP版本。ALIWEB不使用“机器人”程序,而是靠网站主动提交信息来建立自己的链接索引,类似于现在我们熟知的Yahoo。随着互联网的迅速发展,使得检索所有新出现的网页变得越来越困难,因此,在Matthew Gray的Wanderer基础上,一些编程者将传统的“蜘蛛”程序工作原理作了些改进。其设想是,既然所有网页都可能有连向其他网站的链接,那么从跟踪一个网站的链接开始,就有可能检索整个互联网。到1993年底,一些基于此原理的搜索引擎开始纷纷涌现,其中以JumpStation、The World Wide Web Worm(Goto的前身,也就是今天Overture),和Repository-Based Software Engineering (RBSE) spider最负盛名。然而JumpStation和WWW Worm只是以搜索工具在数据库中找到匹配信息的先后次序排列搜索结果
文档评论(0)