- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
搜索引擎的设计与实现大学毕业论文
二 〇 〇 八 年 六 月
摘 要
为了适应网络信息的飞速增长,并且能够迅速、方便地从网络中获取有效信息, 搜索引擎逐渐走进了人们的生活,“竹竹”搜索引擎系统在这样的条件下,应运而生。
本文首先系统的介绍了搜索引擎的概念、发展历史、和搜索引擎的分类。使读者能够初步了解搜索引擎技术。然后,详细介绍了“竹竹”搜索引擎系统。
“竹竹”搜索引擎是基于Web的,面向笔记本电脑品牌的搜索引擎。系统的前端以MVC模式来实现,Spring做中间层,JDBC作后端来开发实现的。本系统分为三个子模块,抓取模块实现的功能为:将web上的海量网页抓取到系统中;采用的实现方法是使用Heritrix来完成对网页的抓取。处理模块实现的功能为:解析网页,提取其中的有用内容,为网页建立词库,由于笔记本电脑的品牌名在现有词库中不存在,因此要建立其特有的词库文件,对解析网页生成的信息文件进行分词,并建立索引,将索引存入数据库中;采用的实现方法是:通过Lucene的API来实现对网页内容的建索,使用HTMLParser的API实现了对网页内容的解析。用户模块实现的主要功能是:用户模块是系统的用户接口,用户通过此模块完成与系统的交互,当用户在查询界面上输入要检索的品牌信息后,系统将在可以接受的时间内,返回用户所需的结果集;采用的实现方法是:通过DWR封装了AJAX技术,处理用户请求;通过Lucene的API来实现检索。
关键词:搜索引擎;Lucene;Heritrix
Abstract
In order to adapt to the rapid growth of information networks, and can quickly and easily access to information from the network, search engines gradually come into peoples lives, zhuzhu search engine system is builded in such conditions.
This paper first introduced the system,the concept of search engines, the development of history, and search engines category. So that readers can understand the search engine technology. Then, details of the zhuzhu search engine system.
zhuzhu search engine is a Web-based, brand-oriented notebook computer search engine. The front-end system is made by model MVC, Spring to the middle layer, JDBC for the back-end . The system is divided into three sub-module, crawl module for the realization of the functions: Massive on the web page to crawl into the system; using the method is used to running Heritrix. Processing module for the realization of the functions: Analysis of the page, which extract useful content, pages thesaurus, because the brand of notebook computers available in the thesaurus does not exist, to establish its unique lexicon documents, analysis of the page Information generated by Word documents, and index, the index will be deposited in the database; method is used: Lucene API to achieve the content of the cable construction, the use of the API HTMLParser achieve the web content analysis.
您可能关注的文档
- 本科毕业设计论文基于51单片机的密码锁设计.doc
- 本科毕业设计论文基于51单片机的排队机叫号系统设计论文.doc
- 本科毕业设计论文基于51单片机的led点阵显示屏系统的设计论文与实现.doc
- 本科毕业设计论文基于51单片机的四路定时控制器设计报告.doc
- 本科毕业设计论文基于51单片机录音笔设计论文(设计论文).doc
- 本科毕业设计论文基于51单片机的语音投篮玩具设计论文.doc
- 本科毕业设计论文基于89c51rc自动控制浇花系统任务书.doc
- 本科毕业设计论文基于51单片机设计的音乐跑马灯.doc
- 本科毕业设计论文基于89c51的自动断电保护系统单片机.doc
- 本科毕业设计论文基于89c52的液体点滴速度监控设计论文课程设计.doc
最近下载
- 医院信息网络安全培训PPT课件.pptx
- 2025年前列腺科普试题及答案.docx
- 立式叶片排渣过滤机-中国化工设备网.doc
- 20250508 北京大学DeepSeek系列06:DeepSeek私有化部署和一体机.pptx VIP
- 【7上英YL】芜湖市2024-2025学年七年级上学期期中考试英语试卷.pdf VIP
- 屋面瓦及檩条拆除安全方案.doc
- Schneider Electric施耐德Easy Altivar ATV610 变频器编程手册(中文).pdf VIP
- NB∕T34024-2024生物质成型燃料质量要求及分级.docx VIP
- STM32F1开发标准教程-教学大纲、授课计划.docx
- 新语境幼儿园教师专业能力等级与评定.pdf VIP
文档评论(0)