简单搜索引擎分析与开发毕业论文.doc

简单搜索引擎分析与开发毕业论文.doc

  1. 1、本文档共37页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
武汉工业学院 毕 业 设 计(论 文) 设计(论文)题目:简单搜索引擎分析与开发 姓 名 王 华 学 号 070502219 院 (系) 计算机与信息工程系 专 业 信息管理与信息系统 指导教师 陆安生 目 录 第一章 绪论 5 第一节 开发背景 5 第二节 研究现状 5 第三节 搜索引擎的发展 6 第二章 总体设计 8 第一节 可行性研究 8 一、 问题的定义 8 二、 技术可行性 8 1、信息收集和存储技术 8 2、信息预处理技术 8 3、信息索引技术和搜索技术 9 三、 开发工具 9 第二节 需求分析 9 一、系统基本功能 10 二、系统模块组成 10 1、网络爬虫模块 10 2、索引模块 10 3、搜索模块 10 4、用户接口 11 第三章 功能实现 11 第一节 模块详解 11 一、网络爬虫模块 11 1、配置Heritrix 11 2、定制定向爬虫 12 3、创建一个新的抓抓取任务 13 4、镜像方式存储 16 5、网页预处理 16 二、搜索引擎实现模块 19 1、整体架构 19 2、用户接口 20 3、请求servlet 21 4、搜索器 24 5、索引器 24 第四章 部署运行 25 第一节、运行环境 25 第二节、运行效果 26 第五章 技术难点分析 28 第一节 中文分词 28 一、什么是中文分词 28 二、中文分词和搜索引擎 28 三、中文分词技术 28 四、Lucene3.0中的几种分词系统 30 第二节 使用中文分词 32 第六章 总结 35 第七章 致谢 36 摘 要 在浩瀚的网络资源中,搜索引擎(Search Engine)是一种网上信息检索工具,它能帮助用户迅速而全面地找到所需要的信息。何为搜索引擎?搜索引擎是指根据一定的策略,运用特定的计算机程序搜集互联网上的信息,在对信息进行处理和组织后,为用户提供检索服务的系统。 本文结合搜索引擎的历史,现状,发展趋势分析一个简单搜索引擎开发的目的和意义、设计思想以及技术实现等。搜索引擎的原理可以分为四部分:从互联网上抓取网页,建立索引库,在索引数据库中排序,对搜索结果进行处理和排序。结合搜索引擎的原理本课题给出了几个重要模块: Heritrix网络爬虫模块、预处理模块、建立索引模块(index)、查询模块等。 本系统开发平台为Eclipse,采用Java开发语言结合Htmlparper,Lucene完成具体实现,在Web 服务器上部署发布。 关键词: Search Engine;JAVA;搜索引擎;Web ;Heritrix;Lucene;index Abstracts In the vast network of resources, search engines (Search Engine) is an online information retrieval tool that helps users to quickly and comprehensively to find the information they need。whats Search Engine?Search engine is based on certain strategies and use specific computer programs to collect information on the Internet, and provide search services for users of the system after organization for the information. In the article ,we conclude the history ,current situation and development trend of the search engine and discuss the purpose and significance,design and technical realization of a simple Search Engine.The principle of the Search Engine can be divided into four parts:Crawled pages from the internet,Library indexing,Sorted in the index database,On the processing and sorting search results.Com

文档评论(0)

精品天地 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档