基于Lucene校园搜索系统开发论文.doc

  1. 1、本文档共38页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于Lucene校园搜索系统开发论文

摘 要 校园网已经成为高校信息资源共享和管理的重要平台,网络构建目的不同使得校园网与互联网之间存在着较大差异,这些差异导致校园网搜索引擎的实现需要引进新的技术和方法。 本文通过分析比较校园网和公用互联网的区别,统计分析并总结出校园网信息资源的特点,并基于这些特点提出了多维度量排序算法等技术,以提高搜索引擎查询准确度,实际构建的校园网搜索系统表现出比传统搜索引擎更优的搜索性能。在此基础上,本文利用基于Java的全文检索工具包Lucene开发定制了一个基于Lucene的校园网搜索系统。 关键词:搜索引擎;Lucene;排序算法;相关度 Abstract Campus Network is an important platform of university information resources, which differs from Internet in many aspects. New methods and algorithms is used to build a good university information resources search engine. Based on the analyses of the differences between campus network and Internet,corresponding solutions such as multiple metrics ranking algorithm is proposed. A real university information resources search system is conducted and the experimental results show that search system has many advantages compared with the general Internet search engine. This article describes how to develop a search system of campus network for our need quickly based on Lucene which is a power full - text retrieval tools. Keywords: search Engine; Lucene; ranking algorithm; Relevance 目录 摘 要 i Abstract ii 目录 iii 第1章 绪论 1 1.1 搜索引擎的概念 1 1.2 校园网搜索的特点 2 1.3 论文研究内容及其意义 4 第2章 Lucene研究 6 2.1 Lucene简介 6 2.2 Lucene的应用、特点及优势 6 2.3 Lucene系统结构分析 7 2.4 Lucene数据流分析 9 第3章 校园网搜索系统设计 11 3.1 体系结构设计 11 3.2 整体设计流程图 12 3.3 引擎设计主要类图 13 3.3.1 语言分析类 13 3.3.2 文档结构类 14 3.3.3 索引管理类 14 3.3.4 查询分析和检索类 17 3.3.5 工具类 18 3.4 索引文件存储抽象 18 第4章 校园网搜索系统实现 22 4.1 系统主要模块的具体实现 22 4.1.1 系统维护接口 22 4.1.2 索引器 22 4.1.3 查询分析器 23 4.1.4 索器 24 4.2 关键技术研究 25 4.2.1 中文分词 25 4.2.2 解析网页及索引入库 25 4.2.3 网页排序算法及检索输出 26 4.2.4 PDF等异构文本处理 30 总结与展望 32 参考文献 33 致 谢 34 绪论 搜索引擎的概念 搜索引擎(Search Engine)指的是一种在Web上应用的软件系统,它以一定的策略在Web上搜集和发现信息,在对信息进行处理和组织后,为用户提供Web信息查询服务。从使用者的角度看,这种软件系统提供一个网页界面,让他通过浏览器提交一个词语或者短语,然后很快返回一个可能和用户输入内容相关的信息列表(常常会是很长一个列表,例如包含1万个条目)。这个列表中的每一条目代表一篇网页,至少有3个元素: 标题:以某种方式得到的网页内容的标题。最简单的方式就是从网页的TITLE/TITLE标签中提取的内容。(尽管在一些情况下并不真正反映网页的内容)。 URL:该网页对应的“访问地址”。有经验的Web用户常常可以通过这个元素对网页内容的权威性进行判断,例如上面的内容通常就比(某个假想的个人网站)上的要更权威些(不排除后者上的内容更有趣些)。 摘要:以某种方式得到的网页内容的摘要。

文档评论(0)

skvdnd51 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档