- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Lucene的校园网智能搜索引擎的设计与实现.doc
基于Lucene的校园网智能搜索引擎的设计与实现
摘要: 为了设计与开发校园网智能搜索引擎,研究和分析搜索引擎的工作原理、Lucene的运行机制以及智能搜索引擎功能需求。结合本校的校园网建设,分别从爬虫系统、索引系统、引擎管理平台、检索系统4个子系统出发实现了一套基于Lucene的校园网智能搜索引擎,搜索引擎在搜索功能、信息监管、系统安全、智能交互方面都有所提升。搜索引擎可为校内用户提供决策性的搜索帮助,且搜索结果的期望值较高。
关键字: 网络爬虫; Lucene; 校园网; 智能搜索引擎; 索引系统
中图分类号: TN964?34 文献标识码: A 文章编号: 1004?373X(2013)06?0083?04
随着因特网的迅猛发展、Web信息量的爆炸性增长,人们被庞大的、多样性的信息所围绕,用户要在信息的海洋中查找自己需要的信息,犹如大海捞针一般,有时会无功而返,正因如此,搜索引擎技术应运而生,它有效地解决了信息数量多与用户查找信息困难之间的矛盾,发展到了今天,商用搜索引擎已经相当成熟,搜索方式越来越趋向于人性化、智能化。据调查,全国现有30%左右的高校采用百度或Google嵌入式引擎作为校园内部搜索引擎,但他们在使用中发现,商用搜索引擎很难实现一个域范围内的全面而精准的搜索。因此,高校有必要根据本校的校园网环境特色,自行设计和实现一套智能、高效的搜索引擎。
本文在研究分析搜索引擎的工作原理和Lucene的运行机制的基础上,建立了一套基于Lucene的校园网站智能全文搜索系统,为校内外用户提供针对学校各类网站的全文搜索服务,使用户能够快速、方便、准确、全面地查找到所需信息,提高学校网站利用率。
1 搜索引擎及Lucene概述
搜索引擎使用网络爬虫寻找网络内容,网络上的HTML文档使用超链接链接起来,就像织成了一张网,网络爬虫也叫网络蜘蛛,顺着这张网爬行,每到一个网页就用抓取程序将这个网页抓下来,将内容抽取出来,同时抽取超链接,作为进一步爬行的线索[1]。网络爬虫总是要从某个起点开始爬,这个起点被称作种子,可以告诉它,也可以到一些网址列表网站上获取,随着网络爬虫对数据的大量收集,产生一个问题,怎么能从收集的千千万万的信息中快速、精确地找到自己需要的信息,这时就需要建立针对文本的索引,将文本内容转换或能够进行快速搜索的格式,从而消除按顺序扫描的慢速搜索,简单地理解为一种用来快速查找单词的工具,当用户想要查询自己所需的信息时,检索器会接受用户的输入,并建立查询,接着进行查询解析,在文本库中进行快速检索,进行相关性排序,最终将查询结果提供给用户查看。通过上述分析,一个基本的搜索引擎系统应包括3部分内容:搜索器、索引器、检索器[2]。
Lucene是Apache软件基金会jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,它本身不是一个完整的搜索程序,而只是搜索程序的核心和搜索模块而已,可以方便的嵌入到各种应用中实现针对应用的全文索引/检索功能[3]。Lucene具有如下突出优点[4]:
(1)索引文件格式独立于应用平台。Lucene定义了一套以8位字节为基础的索引文件格式,使得兼容系统或者不同平台的应用能够共享建立的索引文件。
(2)在传统全文检索引擎的倒排索引的基础上,实现了分块索引,能够针对新的文件建立小文件索引,提升索引速度。然后通过与原有索引的合并,达到优化的目的。
(3)优秀的面向对象的系统架构,使得对于Lucene扩展的学习难度降低,方便扩充新功能。
(4)设计了独立于语言和文件格式的文本分析接口,索引器通过接受Token流完成索引文件的创立,用户扩展新的语言和文件格式,只需要实现文本分析的接口。
(5)已经默认实现了一套强大的查询引擎,用户无需自己编写代码即使系统可获得强大的查询能力,Lucene的查询实现中默认实现了布尔操作、模糊查询、分组查询等。
Lucene基本上向用户提供索引、搜索、管理3大组件。索引组件分为4个部分,首先,使用爬虫来搜集和界定需要索引的内容;然后,将获得的内容转换成文档,文档通常包含标题、正文、摘要、作者、链接等域;随后,进行文档分析,将文本分割成一系列词汇单元,俗称切词;最后文档被加入索引列表。搜索组件包括3部分,首先,建立查询请求,用户提交的搜索请求会转换成为搜索引擎特定的查询的对象格式;其次,查询检索索引并返回与关键词匹配的文档,引擎会按照某种特定的机制来排序;最后,便是展现查询结果,结果会以直观的、经济的的方式为用户展现结果。Lucene以其突出的优势及十分全面的索引、查询等组件,成为开发校园网搜索引擎的必备框架。这样各大高校就可以通过扩展程序,对Lucene进行二次开发,
您可能关注的文档
最近下载
- 成立能源管理体系建设工作领导小组通知.docx
- 2022年鹏程杯5年级数学竞赛真题+解析.pdf
- 牛津译林版(2024)英语七年级上册第一学期期末测试卷(含答案,无音频,含听力原文).pdf VIP
- 实施弹性退休制度暂行办法解读课件PPT.pptx
- 期末复习测试题一(九年级物理).doc VIP
- 2024年农村信用社高管考试试题一.doc
- 2024-2025学年河南省郑州市金水区四年级(上)期末英语试卷(全解析版).docx
- 喜欢新老师(教学设计)-2024-2025学年岭美版(2024)美术一年级上册.docx VIP
- 2024年银行考试-授信业务资格笔试参考题库含答案.docx
- 幼儿园:四个月观察记录.doc
文档评论(0)