基于网络爬虫的搜索引擎设计与实现—.doc

下载文档 降价啦

1038
0
约5.04万字
约 32页
2018-03-27 发布于重庆
举报
版权申诉
保障服务

基于网络爬虫的搜索引擎设计与实现—.doc

1、本文档共32页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于网络爬虫的搜索引擎设计与实现—

本科毕业设计题目：基于网络爬虫的搜索引擎设计与实现系别：　专业：计算机科学与技术班级：学号：姓名：同组人：指导教师：教师职称：协助指导教师：教师职称：摘要本文从搜索引擎的应用出发，探讨了网络蜘蛛在搜索引擎中的作用和地住，提出了网络蜘蛛的功能和设计要求。在对网络蜘蛛系统结构和工作原理所作分析的基础上，研究了页面爬取、解析等策略和算法，并使用Java实现了一个网络蜘蛛的程序，对其运行结果做了分析。关键字：爬虫、搜索引擎 Abstract The paper，discussing from the application of the search engine，searches the importance and function of Web spider in the search engine．and puts forward its demand of function and design．On the base of analyzing Web Spider’s system strtucture and working elements．this paper also researches the method and strategy of multithreading scheduler，Web page crawling and HTML parsing．And then．a program of web page crawling based on Java is applied and analyzed． Keyword: spider, search engine 目录摘要 2 Abstract 3 一、项目背景 5 1.1搜索引擎现状分析 5 1.2课题开发背景 6 1.3网络爬虫的工作原理 8 二、系统开发工具和平台 9 2.1关于java语言 9 2.2 Jbuilder介绍 10 2.3 servlet的原理 12 三、系统总体设计 14 3.1系统总体结构 14 3.2系统类图 14 四、系统详细设计 17 4.1搜索引擎界面设计 17 4.2 servlet的实现 19 4.3网页的解析实现 20 4.3.1网页的分析 20 4.3.2网页的处理队列 21 4.3.3 搜索字符串的匹配 22 4.3.4网页分析类的实现 22 4.4网络爬虫的实现 25 五、系统测试 33 六、结论 35 致谢 35 参考文献 36 一、项目背景 1.1搜索引擎现状分析互联网被普及前，人们查阅资料首先想到的便是拥有大量书籍的图书馆，而在当今很多人都会选择一种更方便、快捷、全面、准确的方式——互联网．如果说互联网是一个知识宝库，那么搜索引擎就是打开知识宝库的一把钥匙．搜索引擎是随着WEB信息的迅速增加，从1995年开始逐渐发展起来的技术，用于帮助互联网用户查询信息的搜索工具．搜索引擎以一定的策略在互联网中搜集、发现信息，对信息进行理解、提取、组织和处理，并为用户提供检索服务，从而起到信息导航的目的．目前搜索引擎已经成为倍受网络用户关注的焦点，也成为计算机工业界和学术界争相研究、开发的对象．目前较流行的搜索引擎已有Google, Yahoo, Info seek, baidu等. 出于商业机密的考虑, 目前各个搜索引擎使用的Crawler 系统的技术内幕一般都不公开, 现有的文献也仅限于概要性介绍. 随着W eb 信息资源呈指数级增长及Web 信息资源动态变化, 传统的搜索引擎提供的信息检索服务已不能满足人们日益增长的对个性化服务的需要, 它们正面临着巨大的挑战. 以何种策略访问Web, 提高搜索效率, 成为近年来专业搜索引擎网络爬虫研究的主要问题之一。 1.2课题开发背景目前虽然有很多种搜索引擎，但各种搜索引擎基本上由三个组成部分： (1)在互联网上采集信息的网页采集系统：网页采集系统主要使用一种工作在互联网上的采集信息的“网络蜘蛛”。“网络蜘蛛”实际上是一些基于web的程序，利用主页中的超文本链接遍历Web．利用能够从互联网上自动收集网页的“网络蜘蛛”程序，自动访问互联网，并沿着任何网页中的所有URL爬到其它网页