毕业设计（论文）-基于BS结构的搜索引擎应用研究.doc

下载文档 降价啦

2
0
约3.45万字
约 44页
2017-08-12 发布于安徽
举报
版权申诉
保障服务

毕业设计（论文）-基于BS结构的搜索引擎应用研究.doc

1、本文档共44页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

摘要随着Internet的飞速发展，人们越来越依靠网络来查找他们所需要的信息，但是，由于网上的信息源多不胜数，也就是我们经常所说的Rich?Data,?Poor?Information。所以如何有效的去发现我们所需要的信息，就成了一个很关键的问题。为了解决这个问题，搜索引擎就随之诞生。?Based on B / S Design and implementation of search engine Computer Science Department Major:Computer Science Technology No. Name: LiuJianXiong Tutor: LinMugang Abstract This application from the search engines, discusses the role of search engines, search engines put forward the function and design requirements, structure and the search engine system based on the principle of the analysis of the page crawling, parsing and other strategies and algorithms, and use JAVA program to its operating results have been analyzed. Key Words search engine; java 目录 1 项目背景 1 1.1 搜索引擎现状分析 1 1.2 课题开发背景 1 1.3搜索引擎的组成和工作过程 3 1.3.1 搜索器 3 1.3.2 索引器 4 1.3.3 检索器 5 1.4搜索引擎的分类 6 1.5当前搜索引擎的关键技术 10 1.5.1网络蜘蛛技术 10 1.5.2基于相关度的排序 12 1.5.3基于概念的检索 12 2 系统开发工具和平台 14 2.1 关于JAVA语言 14 2.2 Eclipse介绍 15 2.2.1Eclipse历史 15 2.3 servlet的原理 16 3 系统总体设计 18 3.1系统总体结构 18 3.2搜索策略 18 4 系统详细设计 19 4.1 界面设计实现 19 4.2 设计代码分析 19 4.3 servlet的实现 23 4.4 网页的处理队列 24 4.5搜索字符串的匹配 25 4.6 搜索引擎的实现 25 5 系统测试 39 6 结论 41 参考文献 43 1 项目背景 1.1 搜索引擎现状分析互联网被普及前，人们查阅资料首先想到的便是拥有大量书籍的图书馆，而在当今很多人多会选择一种更方便，快捷，全面准确的方式——互联网，如果说互联网是一个知识宝库，那么搜索引擎就是打开知识宝库的一把钥匙，搜索引擎是随着WEB信息的迅速增加，从1955年开始逐渐发展起来的技术，用于帮助互联网用户查询信息的搜索工具，搜索引擎以一定的策略在互联网中搜集，发现信息，对信息进行理解，提取，组织和处理，并为用户提供检索服务，从而起到信息导航的目的。目前搜索引擎已经成为倍受网络用户关注的焦点，也成为计算机工业界和学术界争相研究，开发的对象。目前较为流行的搜索的引擎已有Google，Yahoo，Ifno seek，baidu等。出于商业机密的考虑，目前各个搜索引擎使用的Crawler系统的技术内幕一般都不公开，现有的文献也仅限于概要性介绍，随着WEB信息资源呈指数级增长及WEB信息资源动态变化，传统的搜索引擎提供的信息检索服务已不能满足人们日益增长的对个性化服务的需要，他们正面临着巨大的挑战，以何种策略访问WEB，提高搜索效率，成为近年来搜索引擎研究的主要问题之一。 1.2 课题开发背景目前虽然有多种搜索引擎，但各种搜索引擎基本上由三部分组成：（1）在互联网上采集信息的网页采集系统：网页采集系统主要使用一种工作在互联网上的采集信息的”网络蜘蛛” 。”网络蜘蛛”实际上市一些基于WEB的程序，利用主页中的超文本链接遍历WEB，利用能够从互联网上自动收集网页的”网络蜘蛛”程序，自动访问互联网并沿着任何网页中的所有URL爬到其它网页，重复这过程，并把爬过的所有网页收集到网页数据库中。（2）对采集到的信息进行索引并建立索引库的索引处理系统：索引处理系统对收集回来的网页进行分析，提取相关网页信息(包括网页所在URL，编码类型，网页内容包含的关键词，关键词位置，生成时间，大小与其它网页的链接关系等)，根据一定的相关度算法进行大量复杂计算，得到每一个网页针对页面内容中及超