基于lucelle的校园网搜索引擎分析与设计.docVIP

下载本文档

3
0
约2.88千字
约 5页
2017-02-06 发布于北京
举报
版权申诉

基于lucelle的校园网搜索引擎分析与设计.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于lucelle的校园网搜索引擎分析与设计.doc

基于lucelle的校园网搜索引擎分析与设计　　[摘要]现代网络信息化水平日益提高，网页信息量急剧增加，搜索引擎已经成为人们获取所需知识的必要工具之一。本文结合校园网搜索引擎的具体需求，介绍校园网搜索引擎的整体框架。其中，lucene作为开源的检索框架，具有很好的应用性。　　[关键词]搜索引擎；lucene；网络爬虫；站内搜索　　中图分类号：TP391.1 文献标识码：A 文章编号：1009-914X（2015）05-0126-01 　　1引言　　21世纪是网络信息化的时代，网络信息已经成为人们工作与学习中不可或缺的东西。网络在世界范围内向用户提供信息服务及其所拥有的信息资源，但随着网络的蓬勃发展，信息数量的快速增长，当今网络上的这些海量信息形态各异，且分散在网络中的各个角落。因此，如何从网络上的海量信息中检索出用户所需要的信息，成为了我们关注的一个重要问题。　　2搜索引擎　　搜索引擎是一个为用户提供信息检索功能的网络工具。搜索引擎是随着互联网络信息的快速增长，开始逐步发展起来的技术。在互联网发展的最初阶段，网站的数量相对较少，信息查找比较容易。但随着互联网技术爆炸性的发展，网络上面的信息越来越多，并且以各种各样的形态存在，这时用户便很难找到所需要的信息，一些为满足大众信息检索需求的专业搜索网站就应运而出了。同时，小型专用的搜索引擎也将在人们获取互联网信息中发挥着想当重要的作用。　　3 lucene 　　lucene～apache软件基金会jakarta项目组的子项目，它是一个开放源码的全文检索工具。lucene在起初是基于java研发的，在网站建设中扮演的是一个全文索引工具的角色。与传统的直接从数据库中搜索记录相比较，使用lucene可以大大增加搜索引擎的性能。lucene的搜索机制是基于文件索引的，所以性能要比从数据库中检索更快，尤其当数据量大的时候区别更加明显。lucene可以及时索引所有需要的内容，并更新和删除它们。　　ucene的系统结构具有良好的二次开发性能。首先它的索引格式与平台无关，其次它将各个组成部分封装成抽象类，具体的实现定义为抽象类的实现过程，并且具有强烈的面向对象的特征。　　4校园网的搜索引擎框架　　现代网络信息化水平迅速提高，校园网作为一个信息核心领域，所涉及到的内容也是　　形态各异的。本文就如何搭建一个校园网内的搜索引擎，以方便在校师生快速准确地查找各自所需信息的整体流程，给出详细的介绍。搜索引擎首先根据网站的需求选择合适的网络爬虫，对网络上的信息进行爬取，爬取到信息之后，对其中的有用信息进行提取，并利用lucene对所提取到的有用信息进行索引，最终输出与用户查询结果匹配度最大的信息。　　本文研究的校园网搜索引擎有三个功能模块：信息采集模块、信息处理模块和信息检索模块。信息采集模块，顾名思义，就是对网络上的信息进行采集，这是整个搜索引擎系统一项最初始的准备工作，也是最基础的工作。该搜索系统针对的目标群体主要是在校师生，也就是说，要捕获的信息主要来源于校园网络。　　4.1信息采集模块　　信息采集模块是校园网搜索系统最基础的组成部分，它的作用是对指定网站的页面信息进行采集，并将采集到的信息保存到数据库中。这一部分主要依靠网络爬虫程序来实现。网络爬虫是一个自动获取网页内容的程序，它为搜索引擎从internet网上下载网页，是搜索引擎的重要组成部分。它从一个或一组初始网页的url开始，获取初始网页上的url，在抓取网页的过程中，不断从当前页面上抽取新的url放入队列，直到满足系统的一定停止条件。本文利用网络爬虫从校园网上抓取网页url、网页标题和网页文本内容，并保存到已构建好的本地页面数据库中。信息处理模块从页面数据库中读取页面信息，分析信息内容并为其建立索引。　　4.2信息处理模块　　lucene开源检索框架是基于文件索引机制的，只能对文本文件进行索引。信息处理模块主要包含3个步骤：读取页面内容、页面内容解析和构建索引。　　4.2.1读取页面内容。　　首先，该模块从已构建好的页面数据库中提取网页标题和网页文本内容；然后将提取到的信息传递给下一步骤处理。　　4.2.2页面内容解析。　　读取到从页面数据库传送过来的文本内容之后，就要对其进行解析处理了。解析就是对文本内容进行解释和分析。分析在lucene中是指将文本转换为最基本的索引项的一个过程。所谓的分析器就是对分析操作的封装类。对于不同的语言，分析器所要完成的功能是不一样的。比如，对英语来说，要将文档字母从大写转换成小写、过滤忽略词等。校园网搜索引擎面对的语言主要是中文，分析器需要实现的就是对完整的语句进行分词。分词，顾名思义，就是将一段文本拆分成多个词。在建立索引