- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于lucene的校园网搜索引擎分析与设计.pdf
ChinaSCienceandTechnologyReview
基于 lucene的校园网搜索引擎分析与设计
詹佳珂
(同济大学软件学院 上海 201804)
摘【 要]现代网络信息化水平日益提高,网页信息量急剧增加,搜索引擎已经成为人们获取所需知识的必要工具之一。本文结合校园网搜索引擎的具体需
求,介绍校园网搜索引擎的整体框架。其中,lucene~为开源的检索框架,具有很好的应用性。
[关键词]搜索引擎;luceneI网络爬虫}站内搜索
中图分类号:TP391.1 文献标识码 :A 文章编号:1009~914x(2o15)o5—0126一O1
1弓l亩 4.2信息处理模块
2l世纪是网络信息化的时代,网络信息已经成为人们工作与学习中不可或 lucene开源检索框架是基于文件索引机制的,只能对文本文件进行索引。
缺的东西。网络在世界范围内向用户提供信息服务及其所拥有的信息资源 ,但 信息处理模块主要包含34步骤:读取页面内容、页面内容解析和构建索引。
随着网络的蓬勃发展,信息数量的快速增长,当今网络上的这些海量信息形态 4.2.1读取页面内容。
各异,且分散在网络中的各个角落。因此,如何从网络上的海量信息中检索出用 首先,该模块从已构建好的页面数据库中提取网页标题和网页文本内容 ;
户所需要的信息,成为了我们关注的一个重要问题 。 然后将提取到的信息传递给下一步骤处理。
2搜索引擎 4.2.2页面内容解析。
搜索引擎是一个为用户提供信息检索功能的网络工具。搜索引擎是随着互 读取到从页面数据库传送过来的文本内容之后 ,就要对其进行解析处理
联网络信息的快速增长,开始逐步发展起来的技术。在互联网发展的最初阶段, 了解析就是对文本内容进行解释和分析。分析在lucene中是指将文本转换为
网站的数量相对较少,信息查找比较容易。但随着互联网技术爆炸性的发展,网 最基本的索引项的一个过程。所谓的分析器就是对分析操作的封装类。对于不
络上面的信息越来越多,并且以各种各样的形态存在,这时用户便很难找到所 同的语言,分析器所要完成的功能是不一样的。比如,对英语来说,要将文档字
需要的信息,一些为满足大众信息检索需求的专业搜索网站就应运而出了。同 母从大写转换成小写、过滤忽略词等。校园网搜索引擎面对的语言主要是中文,
时,小型专用的搜索引擎也将在人们获取互联网信息中发挥着想当重要的作 分析器需要实现的就是对完整的语句进行分词。分词,顾名恩义,就是将一段文
用。 本拆分成多个词。在建立索引的时候 ,写入索引库中并能够被用户检索的是一
3 lucene 个个的词条。所谓词条就是通过分析器进行分词和相关处理后的文本单元项 ,
lucene是apache~件基金会jakana项目组的子项目,它是一个开放源码的 只有通过分词才可能让搜索系统理解用户的检索请求,进而为其搜索相关的内
全文检索工具 luo啪e在起初是基于java开发的,在网站建设中扮演的是一个全 容。
文索引工具的角色。与传统的直接从数据库中搜索记录相比较,使用lucene可 4.2.3构建索 引。
以大大增加搜索引擎的性能。lucene的搜索机制是基于文件索引的,所以性能 事实上 ,常用的索引方式有3种,分别是倒排索引、后缀数组索引和签名文
要 比从数据库中检索更快 ,尤其当数据量大的时候区别更加明显。luceneN 以 档索引。
及时索引所有需要的内容,并更新和删除它们 。
文档评论(0)