基于lucene的校园网搜索引擎.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于 lucene 的校园网搜索引擎 [提要] 现代网络信息化水平日益提高,网页信息量急剧增加, 搜索引擎已经成为人们获取所需知识的必要工具之一。本文结合校 园网搜索引擎的具体需求,介绍校园网搜索引擎的整体框架。其中, lucene 作为开源的检索框架,具有很好的应用性。 关键词:搜索引擎;lucene;网络爬虫;站内搜索 一、引言 21 世纪是网络信息化的时代,网络信息已经成为人们工作与学习 中不可或缺的东西。网络在世界范围内向用户提供信息服务及其所 拥有的信息资源,但随着网络的蓬勃发展,信息数量的快速增长, 当今网络上的这些海量信息形态各异,且分散在网络中的各个角落。 因此,如何从网络上的海量信息中检索出用户所需要的信息,成为 了我们关注的一个重要问题。目前,虽然有了像 google、百度这样 的通用搜索引擎,但是它们并不能适合人们所有的情况和需要,也 没有哪个最大最好的搜索引擎可以覆盖所有的搜索范围,因为不同 的人群范围所需求的信息资源也是不尽相同的。人们习惯在互联网 上查找信息,往往在同一个网站内拥有丰富的信息资源,如何在网 站内部快速查找用户所要的信息,也成为了人们当前关注的一个焦 点。 二、搜索引擎 搜索引擎是一个为用户提供信息检索功能的网络工具。搜索引擎 是随着互联网络信息的快速增长,开始逐步发展起来的技术。在互 联网发展的最初阶段,网站的数量相对较少,信息查找比较容易。 但随着互联网技术爆炸性的发展,网络上面的信息越来越多,并且 以各种各样的形态存在,这时用户便很难找到所需要的信息,一些 为满足大众信息检索需求的专业搜索网站就应运而出了。如今, google 的巨大成功让整个世界都把眼光投入到搜索引擎这个领域 中,并且google 在一定程度上起到了引导作用。google 公司在 2007 年决定向小型网站提供专门的搜索服务。这些都表明小型专用的搜 索引擎将在人们获取互联网信息中发挥着想当重要的作用。 三、lucene lucene 是 apache 软件基金会 jakarta 项目组的子项目,它是一 个开放源码的全文检索工具。lucene 在起初是基于 java 开发的, 在网站建设中扮演的是一个全文索引工具的角色。与传统的直接从 数据库中搜索记录相比较,使用 lucene 可以大大增加搜索引擎的 性能。lucene 的搜索机制是基于文件索引的,所以性能要比从数据 库中检索更快,尤其当数据量大的时候区别更加明显。lucene 可以 及时索引所有需要的内容,并更新和删除它们。 lucene 的系统结构具有良好的二次开发性能。首先它的索引格式 与平台无关,其次它将各个组成部分封装成抽象类,具体的实现定 义为抽象类的实现过程,并且具有强烈的面向对象的特征。(图 1) 四、校园网的搜索引擎框架 现代网络信息化水平迅速提高,校园网作为一个信息核心领域, 所涉及到的内容也是形态各异的。本文就如何搭建一个校园网内的 搜索引擎,以方便在校师生快速准确地查找各自所需信息的整体流 程,给出详细的介绍。搜索引擎首先根据网站的需求选择合适的网 络爬虫,对网络上的信息进行爬取,爬取到信息之后,对其中的有 用信息进行提取,并利用 lucene 对所提取到的有用信息进行索引, 最终输出与用户查询结果匹配度最大的信息。 本文研究的校园网搜索引擎有三个功能模块:信息采集模块、信 息处理模块和信息检索模块。信息采集模块,顾名思义,就是对网 络上的信息进行采集,这是整个搜索引擎系统一项最初始的准备工 作,也是最基础的工作。该搜索系统针对的目标群体主要是在校师 生,也就是说,要捕获的信息主要来源于校园网络。信息处理模块, 主要负责对采集到的信息进行提取,提取到所需的有价值的信息之 后并为其建立索引,为后续的信息检索模块构建好索引数据库。信 息检索模块主要负责在已构建好的索引数据库中查找包含用户查 询关键字在内的文本内容,并负责用户从搜索界面接收关键字以及 查询结果信息的返回工作。校园网的搜索引擎系统组织结构图如图 2 所示。(图 2) (一)信息采集模块。信息采集模块是校园网搜索系统最基础的 组成部分,它的作用是对指定网站的页面信息进行采集,并将采集 到的信息保存到数据库中。这一部分主要依靠网络爬虫程序来实现。 网络爬虫是一个自动获取网页内容的程序,它为搜索引擎从 internet 网上下载网页,是搜索引擎的重要组成部分。它从一个或 一组初始网页的 url 开始,获取初始网页上的 url,

文档评论(0)

152****7770 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档