- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于lucene校园网搜索引擎
基于lucene校园网搜索引擎
[提要] 现代网络信息化水平日益提高,网页信息量急剧增加,搜索引擎已经成为人们获取所需知识的必要工具之一。本文结合校园网搜索引擎的具体需求,介绍校园网搜索引擎的整体框架。其中,lucene作为开源的检索框架,具有很好的应用性。
关键词:搜索引擎;lucene;网络爬虫;站内搜索
中图分类号:TP393 文献标识码:A
收录日期:2012年5月29日
一、引言
21世纪是网络信息化的时代,网络信息已经成为人们工作与学习中不可或缺的东西。网络在世界范围内向用户提供信息服务及其所拥有的信息资源,但随着网络的蓬勃发展,信息数量的快速增长,当今网络上的这些海量信息形态各异,且分散在网络中的各个角落。因此,如何从网络上的海量信息中检索出用户所需要的信息,成为了我们关注的一个重要问题。目前,虽然有了像Google、百度这样的通用搜索引擎,但是它们并不能适合人们所有的情况和需要,也没有哪个最大最好的搜索引擎可以覆盖所有的搜索范围,因为不同的人群范围所需求的信息资源也是不尽相同的。人们习惯在互联网上查找信息,往往在同一个网站内拥有丰富的信息资源,如何在网站内部快速查找用户所要的信息,也成为了人们当前关注的一个焦点。
二、搜索引擎
搜索引擎是一个为用户提供信息检索功能的网络工具。搜索引擎是随着互联网络信息的快速增长,开始逐步发展起来的技术。在互联网发展的最初阶段,网站的数量相对较少,信息查找比较容易。但随着互联网技术爆炸性的发展,网络上面的信息越来越多,并且以各种各样的形态存在,这时用户便很难找到所需要的信息,一些为满足大众信息检索需求的专业搜索网站就应运而出了。如今,Google的巨大成功让整个世界都把眼光投入到搜索引擎这个领域中,并且Google在一定程度上起到了引导作用。Google公司在2007年决定向小型网站提供专门的搜索服务。这些都表明小型专用的搜索引擎将在人们获取互联网信息中发挥着想当重要的作用。
三、lucene
Lucene是Apache软件基金会Jakarta项目组的子项目,它是一个开放源码的全文检索工具。Lucene在起初是基于Java开发的,在网站建设中扮演的是一个全文索引工具的角色。与传统的直接从数据库中搜索记录相比较,使用Lucene可以大大增加搜索引擎的性能。Lucene的搜索机制是基于文件索引的,所以性能要比从数据库中检索更快,尤其当数据量大的时候区别更加明显。Lucene可以及时索引所有需要的内容,并更新和删除它们。
Lucene的系统结构具有良好的二次开发性能。首先它的索引格式与平台无关,其次它将各个组成部分封装成抽象类,具体的实现定义为抽象类的实现过程,并且具有强烈的面向对象的特征。(图1)
四、校园网的搜索引擎框架
现代网络信息化水平迅速提高,校园网作为一个信息核心领域,所涉及到的内容也是形态各异的。本文就如何搭建一个校园网内的搜索引擎,以方便在校师生快速准确地查找各自所需信息的整体流程,给出详细的介绍。搜索引擎首先根据网站的需求选择合适的网络爬虫,对网络上的信息进行爬取,爬取到信息之后,对其中的有用信息进行提取,并利用Lucene对所提取到的有用信息进行索引,最终输出与用户查询结果匹配度最大的信息。
本文研究的校园网搜索引擎有三个功能模块:信息采集模块、信息处理模块和信息检索模块。信息采集模块,顾名思义,就是对网络上的信息进行采集,这是整个搜索引擎系统一项最初始的准备工作,也是最基础的工作。该搜索系统针对的目标群体主要是在校师生,也就是说,要捕获的信息主要来源于校园网络。信息处理模块,主要负责对采集到的信息进行提取,提取到所需的有价值的信息之后并为其建立索引,为后续的信息检索模块构建好索引数据库。信息检索模块主要负责在已构建好的索引数据库中查找包含用户查询关键字在内的文本内容,并负责用户从搜索界面接收关键字以及查询结果信息的返回工作。校园网的搜索引擎系统组织结构图如图2所示。(图2)
(一)信息采集模块。信息采集模块是校园网搜索系统最基础的组成部分,它的作用是对指定网站的页面信息进行采集,并将采集到的信息保存到数据库中。这一部分主要依靠网络爬虫程序来实现。网络爬虫是一个自动获取网页内容的程序,它为搜索引擎从Internet网上下载网页,是搜索引擎的重要组成部分。它从一个或一组初始网页的URL开始,获取初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。本文利用网络爬虫从校园网上抓取网页URL、网页标题和网页文本内容,并保存到已构建好的本地页面数据库中。信息处理模块从页面数据库中读取页面信息,分析信息内容并为其建立索引。
一个好的网页爬虫应该具有很好的灵
您可能关注的文档
最近下载
- A.8 公用设备二次回路原理图集20170407.pdf VIP
- 人教版(2024)数学三年级上册《认识直角》PPT课件.pptx VIP
- 流行性感冒诊疗方案(2025 年版)解读PPT课件.pptx VIP
- 医院感染的消毒灭菌与器械管理.pptx VIP
- 新生儿大疱性表皮松解症的护理.pptx VIP
- 2025年呼吸内科医师呼吸系统疾病治疗考核试题及答案解析.docx VIP
- A.1 220kV线路二次回路原理图集..pdf VIP
- 回弹法检测混凝土抗压强度技术规程.pdf VIP
- 苏轼《南乡子 重九涵辉楼呈徐君猷》古诗词PPT.pptx VIP
- (2025年)全科医生培训考试题库及答案.docx VIP
文档评论(0)