- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Nutch校园网信息检索系统研究与实现
基于Nutch校园网信息检索系统研究与实现
摘 要:本文通过分析校园网内信息资源的特点,在Nutch搜索引擎的基础上,构建了基于校园网各Web网站站内检索和统一检索平台两层体系结构的校园网信息检索系统,有效地提高了检索效果。
关键词:Nutch;信息检索;搜索引擎;索引优化;汉语分词;排序算法
中图分类号: TP393.08文献标识码:B文章编号:1673-8454(2010)15-0065-02
目前校园网信息检索主要采用两种方式。一种方式是Web网站构筑站内搜索功能,采用数据库查询的方式进行。通常是通过匹配标题、作者、摘要等字段的关键字信息来实现信息检索,由于受到数据库性能、检索效率等因素的影响不能实现基于匹配正文内容的检索,从而导致搜索效果下降。该方式也无法实现校园网信息资源的整合和共享。另一种方式是将基于互联网的搜索引擎技术应用于校园网,构建校园网搜索引擎,但校园网在应用环境、网站构建、链接结构等方面与互联网有所不同,主要表现为各网站独立性较强,网页间链接稀疏;检索目标与内容相关度、时间的关联性较强,而与网页被链接的数量关联性较弱;文档关键字重复度高,周期性出现。因此采用互联网搜索引擎基于网页链接分析技术的页面评分与排序算法往往不能达到令用户满意的检索效果。针对上述问题,本系统采用基于Nutch的开源搜索引擎技术,构建校园网信息检索系统,从而提高检索的广度、速度和精度。
一、系统体系结构
Nutch是一个开源的、Java实现的Web搜索引擎,提供了构建搜索引擎所需的基本工具模块,包括网络爬虫、文本分析、分词工具、建立索引、搜索功能和结果过滤等,具有透明性高、易于理解和扩展性好等特点。本系统以MyEclipse8.0作为开发平台,在Nutch搜索引擎的基础上对其分词模块、索引模块、搜索和排序模块进行了二次开发,以适应校园网的具体应用环境。
校园网信息检索系统体系结构分为两层。下层面向各Web网站,基于Nutch构建站内文档搜索引擎,建立各自网站的文档索引并提供搜索功能,替代基于数据库的检索方式,从而提高检索效果和效率;上层为面向校园网范围的信息检索平台,通过对各个Web网站的索引进行合并和优化,来构建统一共享的检索平台,系统体系结构如图1所示。
通过该体系结构在下层可以为各个Web网站提供全文信息检索功能,既可以有效缓解各Web网站服务器的压力,又可以提高网站的检索性能。基于Nutch的搜索引擎对各Web网站的网页进行抓取,经过文本分析与分词处理后建立索引,校园网内每个Web网站都建立各自的索引文件,并为各自的Web网站用户提供独立的信息检索功能。在上层系统通过对校园网内各Web网站索引文件的整合,经过索引优化后,实现对多索引的搜索功能,从而为校园网用户提供统一的信息检索平台,并利用各Web网站用户的检索关键词记录建立智能辅助检索关键词库,方便校园网用户的使用。
二、系统主要功能模块
1.汉语分词模块
信息检索的基础是文本分析,而文本分析在很大程度上依赖于分词模块对语言的处理。Nutch自带的CJK分词模块对中文分词的效率和准确度上不能满足实际需要。为此,在对比了JE分词、Paoding分词和ICTCLAS分词等多款中文分词模块后,Paoding分词由于其开源性和良好的分词效果被本系统采用,并通过Nutch的插件机制集成到系统当中。其原理是Nutch中的抽象类Analyzer类实现了配置和插入中文分词模块的接口,该抽象类中定义了一个公有的抽象方法tokenStream(String fieldName,Reader reader),返回的类型是TokenStream。Paoding分词的分词类返回类型也是TokenStream,故只需将参数fieldName和reader作为Paoding分词的输入参数并将其结果返回给Analyzer类即可。
2.索引优化与多索引搜索
为了有效整合多个Web网站的索引文件,并作为整体提供给统一的信息检索平台,需要进行索引优化,使每个网站只生成一个索引文件。优化索引其实就是将多个索引文件合并成单个文件的过程,目的是减少索引文件的数量,并且能在搜索时减少读取索引文件的时间。Nutch中的IndexWrite类提供了optimize方法实现该优化操作。要使校园网用户在输入一个关键词后,能够得到全部Web网站的查找结果,就要对不同Web网站优化之后的索引文件进行检索。利用Nutch中的MultiSearcher类可实现该功能,检索结果会以一种指定的顺序合并起来。
3.自定义文档排序方法
根据Nutch自身的关键字相关度排序、索引顺序排序和基于互联网的PageRank引用机制排序都不能在校园网中取得
您可能关注的文档
最近下载
- 河北大学2024-2025学年第1学期《高等数学(上)》期末考试试卷(B卷)附参考答案.pdf
- T CAME 30-2021 复合手术室建设标准.docx VIP
- 控制电缆绝缘测试记录表.docx VIP
- 电化学储能电站并网运行验收全套表格.pdf VIP
- 内地新疆高中班学生转学、休学审核表.pdf VIP
- GBT 18015.1-2017 数字通信用对绞或星绞多芯对称电缆 第1部分:总规范.pdf
- TJAASS 151-2024 水稻碳足迹评价方法.pdf VIP
- 新解读《GB_T 18015.1-2017数字通信用对绞或星绞多芯对称电缆 第1部分:总规范》最新解读.docx VIP
- 2022年苏州大学计算机科学与技术专业《计算机网络》科目期末试卷B(有答案).docx VIP
- 检验科仪器设备故障应急预案.docx VIP
原创力文档


文档评论(0)