- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
参考基于lucene本地搜索程序概要设计
基于lucene本地搜索程序概要设计
指导老师:
组 名:
所属院系:
专 业:
班 级:
完成日期:
摘 要
随着因特网的迅猛发展,搜索引擎提供导航服务己经成为互联网上非常重要的网络服务。利用Lucene开源全文本搜索技术框架建立全文检索系统,设计实现了索引器、检索器、中文分析器等模块,完成了一个基于Lucene的搜索引擎的应用,改进后的基于Lucene的全文检索系统能更好地支持中文及更准确地提供给户所需要的信息。
关键词:搜索引擎;网络爬虫;Lucene;Heritrix
ABSTRACT
With the rapid development of the Internet, the search engine provides navigation services have become very important network service on the Internet. Using Lucene open source full text search technology framework to build full-text retrieval system, designed for indexers, Retrievers, Chinese Analyzer module, completed an application based on the Lucene search engine, improved full-text search based on Lucene system better support for the Chinese and be a more accurate information provided to user needs
keywords: search engine ; web crawler ; Lucene ; Heritrix
目录
摘 要 2
ABSTRACT 2
前景 4
产品介绍 5
第1章 设计概述 6
第2章 开发与运行环境 7
2.1开发环境的配置 7
2.2运行环境的配置 7
2.3需求概述 8
第三章 总体设计 9
3.1软件描述 9
3.2处理流程 9
3.2.1文档搜索处理流程 9
3.2.2多媒体及图像搜索处理流程 10
3.3功能结构设计 10
3.3.1搜索文件格式筛选功能结构 10
3.3.2搜索范围功能结构 10
3.4接口设计 10
3.4.1本地方法 11
3.4.2报告编程错误 12
3.4.3异常处理 12
3.5数据结构设计 12
3.5.1逻辑结构设计 12
3.6关键技术 13
3.6.1搜索 14
3.6.2索引 14
3.6.3多级缓存 14
第四章 界面设计及响应时间 15
4.1界面设计 15
4.2系统响应 16
第五章 出错处理设计 17
5.1出错输出信息 17
5.2出错处理对策 17
第六章 安全保密设计 18
6.1设计原则 18
6.2安全保密方案设计的总体框架 19
6.3安全保密方案设计步骤 19
6.4初级阶段的安全控制计划 20
6.5开发阶段的安全控制设计 21
第七章 维护设计 22
致谢 23
参考文献 24
前景
随着信息技术不断发展、互联网信息不断丰富,搜索引擎的发展速度也越来越快,目前仅Google收录的网页就超过80亿。伴随着搜索引擎的飞速发展,相应的瓶颈问题也开始出现:索引数据库越来越大,需要的维护成本越来越高;索引数据源单一,通常只限于文本内容;索引缺乏通用性和灵活性等等。而Lucene具有开放性和易扩展性,对于解决搜索引擎目前的问题有很好的应用价值。本文通过研究设计并开发实现一个小型简单的基于Lucene的本地搜索引擎,来研究Lucene在搜索引擎领域的应用前景。主要工作包括:(1)分析了本地搜索引擎的组成结构和工作原理,在此基础上进行了基于Lucene的本地搜索引擎的整体结构设计,并将系统分为网页搜集子系统、索引检索子系统、查询结果排序子系统等三个模块。(2)针对各个模块的功能进行了设计开发,设计了相关信息的存储机制,并根据搜索引擎的工作原理实现了各模块之间的交互。(3)深入分析并实现了多线程搜集、运用Lucene实现索引和检索、搜索结果的页面优先度计算等等基于L
您可能关注的文档
- 参考华南理工大学硕士探讨生格式.doc
- 参考同济大学交通影响分析指南正式版最新.doc
- 参考哈大高铁对沿线城市旅游发展影响探讨.doc
- 参考合作伙伴评价与选择探讨.doc
- 参考后电信时代山西移动竞争策略探讨.doc
- 参考商业银行信用卡风险管理研究.doc
- 参考合理使用中免费表演问题探讨.doc
- 参考商业银行个人住房贷款信用风险管理研究.doc
- 参考低碳时代的城市生态空间创新研究.doc
- 2016跨境电商创业计划书跨境电子商务运营商业计划书.pdf
- 2025至2030中国移动治疗台行业发展研究与产业战略规划分析评估报告.docx
- 2025至2030链激酶行业细分市场及应用领域与趋势展望研究报告.docx
- 2025至2030爆炸物探测扫描仪行业市场占有率及有效策略与实施路径评估报告.docx
- 2025至2030四川省智能制造行业细分市场及应用领域与趋势展望研究报告.docx
- 2026届高三二轮复习试题政治大单元突破练1生产资料所有制与分配制度含解析.docx
- 2026届高三二轮复习试题政治大单元突破练16哲学基本思想与辩证唯物论含解析.docx
- 2026届高三二轮复习试题政治大单元突破练2社会主义市场经济体制含解析.docx
- 浙江省衢州市五校联盟2025-2026学年高二上学期期中联考技术试题-高中信息技术含解析.docx
- 浙江省金丽衢十二校2026届高三上学期11月联考政治试题含解析.docx
- 2026届高三二轮复习试题政治大单元突破练7领导力量:中国共产党的领导含解析.docx
最近下载
- DB23T 1496.22-2021 劳动防护用品配备 第22部分:种植业生产人员.docx VIP
- TCL海外员工管理.docx VIP
- 神经内科DRGs病案首页诊断栏和手术操作栏填写要求.pdf VIP
- GB T 28896-2023 金属材料 焊接接头准静态断裂韧度测定的试验方法(OCR).pdf VIP
- 高中信息技术校本教材《计算机及网络简介》.pdf VIP
- 牛津树阅读绘本(适合2-8岁小童)A present for Mum【有书】.pdf VIP
- 《电击伤急救护理教程》课件.ppt VIP
- 浙江省杭州市滨江区杭二统考2024-2025学年高二上学期语文期末考试卷(含答案).docx VIP
- 工程廉政风险点及其防控措施表完整.docx VIP
- 河海大学《高等数学》 2017-2018学年第一学期期末试卷B卷.pdf VIP
原创力文档


文档评论(0)