- 1、本文档共37页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
武汉工业学院
毕 业 设 计(论 文)
设计(论文)题目:简单搜索引擎分析与开发
姓 名 王 华
学 号 070502219
院 (系) 计算机与信息工程系
专 业 信息管理与信息系统
指导教师 陆安生
目 录
第一章 绪论 5
第一节 开发背景 5
第二节 研究现状 5
第三节 搜索引擎的发展 6
第二章 总体设计 8
第一节 可行性研究 8
一、 问题的定义 8
二、 技术可行性 8
1、信息收集和存储技术 8
2、信息预处理技术 8
3、信息索引技术和搜索技术 9
三、 开发工具 9
第二节 需求分析 9
一、系统基本功能 10
二、系统模块组成 10
1、网络爬虫模块 10
2、索引模块 10
3、搜索模块 10
4、用户接口 11
第三章 功能实现 11
第一节 模块详解 11
一、网络爬虫模块 11
1、配置Heritrix 11
2、定制定向爬虫 12
3、创建一个新的抓抓取任务 13
4、镜像方式存储 16
5、网页预处理 16
二、搜索引擎实现模块 19
1、整体架构 19
2、用户接口 20
3、请求servlet 21
4、搜索器 24
5、索引器 24
第四章 部署运行 25
第一节、运行环境 25
第二节、运行效果 26
第五章 技术难点分析 28
第一节 中文分词 28
一、什么是中文分词 28
二、中文分词和搜索引擎 28
三、中文分词技术 28
四、Lucene3.0中的几种分词系统 30
第二节 使用中文分词 32
第六章 总结 35
第七章 致谢 36
摘 要
在浩瀚的网络资源中,搜索引擎(Search Engine)是一种网上信息检索工具,它能帮助用户迅速而全面地找到所需要的信息。何为搜索引擎?搜索引擎是指根据一定的策略,运用特定的计算机程序搜集互联网上的信息,在对信息进行处理和组织后,为用户提供检索服务的系统。
本文结合搜索引擎的历史,现状,发展趋势分析一个简单搜索引擎开发的目的和意义、设计思想以及技术实现等。搜索引擎的原理可以分为四部分:从互联网上抓取网页,建立索引库,在索引数据库中排序,对搜索结果进行处理和排序。结合搜索引擎的原理本课题给出了几个重要模块: Heritrix网络爬虫模块、预处理模块、建立索引模块(index)、查询模块等。
本系统开发平台为Eclipse,采用Java开发语言结合Htmlparper,Lucene完成具体实现,在Web 服务器上部署发布。
关键词: Search Engine;JAVA;搜索引擎;Web ;Heritrix;Lucene;index
Abstracts
In the vast network of resources, search engines (Search Engine) is an online information retrieval tool that helps users to quickly and comprehensively to find the information they need。whats Search Engine?Search engine is based on certain strategies and use specific computer programs to collect information on the Internet, and provide search services for users of the system after organization for the information.
In the article ,we conclude the history ,current situation and development trend of the search engine and discuss the purpose and significance,design and technical realization of a simple Search Engine.The principle of the Search Engine can be divided into four parts:Crawled pages from the internet,Library indexing,Sorted in the index database,On the processing and sorting search results.Com
您可能关注的文档
- 进销存管理系统毕业论文.doc
- 计算机与通信学院2011毕业实习报告(填写样例).doc
- 计算机与信息工程系毕业论文(设计)工作条例及相关重要.doc
- 计算机专业毕业论文4.doc
- 计算机专业——毕业论文(译文).doc
- 计算机-专业-毕业论文.doc
- 计算机专业优秀毕业论文1.doc
- 计算机专业指导书6.doc
- 计算机专业专科论文要求.doc
- 网上书城 毕业论文1.doc
- 消防设施操作员之消防设备基础知识练习题库包含答案.docx
- 2022-2023年试验检测师之桥梁隧道工程试卷附带答案.docx
- 2023年教师资格之中学美术学科知识与教学能力考前冲刺试卷包括详细解答.docx
- 2023年教师资格之中学美术学科知识与教学能力考前冲刺练习题附答案详解.docx
- 2023年教师资格之中学美术学科知识与教学能力通关模拟考试试卷附带答案.docx
- 2023年教师资格之中学美术学科知识与教学能力通关检测卷包含答案.docx
- 2023年公用设备工程师之专业案例(暖通空调专业)考前冲刺检测卷含答案讲解.docx
- 2023年公用设备工程师之专业案例(暖通空调专业)通关练习题和答案.docx
- 2023年施工员之设备安装施工专业管理实务通关测试卷附带答案.docx
- 2023年施工员之设备安装施工专业管理实务通关测试卷附答案详解.docx
文档评论(0)