Lucene构建条件下的校园网黄页系统研究与实现.docVIP

Lucene构建条件下的校园网黄页系统研究与实现.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Lucene构建条件下的校园网黄页系统研究与实现

Lucene构建条件下的校园网黄页系统研究与实现   引言   随着互联网的迅速发展,信息爆炸的时代已经来临,人们每天在网络上要面对无数的信息和数据。如何对这些数据进行筛选和甄别,从中选取出真实有效且有用的信息,是一件非常困难的事情,特别是当没有一套行之有效的判别标准的时候。传统搜索引擎的出现很大程度上解决了此类问题,使得人们对于信息的检索变得便捷。但是此类搜索引擎在一个特定范围内如校园网络内使用时,弊端会比较明显,检索效率和准确性都不够。将起源于电信行业的黄页系统引入校园网络,会在诸如号码检索、信息检索、地址检索等功能上非常丰富,很多学校已经或者正在准备建设自己的校园黄页系统。   本文在分析搜索引擎的工作原理和黄页系统结构的基础上,利用开源的lucene工具包,搭建出一个适合校园网使用的基础教育黄页系统,能够满足人们对于校园网内网教育信息资源的检索使用需求。   1校园黄页系统概述与Lucene   1.1黄页系统的发展与校园网络黄页系统概述   网络黄页简单地说是为了将传统的纸质黄页搬到网上,利用Internet作为载体,在网上发行、传播、应用的电话簿。随着技术的发展,黄页除了提供基本的电话号码查询业务以外,还能提供其他的信息查询,包含的范围更加宽泛,服务面也更加丰富。目前有3种形式,即电信等ISP部门推出的黄页、门户网站的黄页频道和专业的网络黄页服务机构,校园网络黄页系统就属于第3种形式。   校园网络黄页系统是能够自动生成教育资源黄页目录并在此基础上为用户提供服务的集成系统。它与传统的黄页系统相比较起来,具有专业性较强、涉及范围较小并且服务对象更加集中的特点。通过快速收集校园网络上的教育资源,并自动化的对信息进行加工分类和抽取,形成黄页目录的形式,然后为需要的用户提供信息检索和查询服务。目前在国内外,黄页系统已经发展的非常发达,yahoo, nassau library等网站都提供了基于目录服务的黄页查询系统,无论从访问量还是使用率来看,都是非常可观的。国内高校特别是图书馆方面,也都已经或者正在建设类似的系统,其中,南京师范大学的黄页查询系统就建设的非常具有代表性。   1.2 Lucene基础知识与工具包内容   Lucene是Apache软件基金会jakarta项目组的一个组成子项目,它使用Java编程语言进行开发,是一个实现全文检索引擎工具功能的开放源代码项目,可以很方便地嵌入到各种应用程序中实现针对特定范围和应用的资源索引和检索功能。与其他搜索引擎相比,Lucene具有以下特点:跨平台、分块索引、面向对象、可扩展和查询功能强大。正因为如此,使用lucene来构建专业检索系统会越来越普遍。   高校可通过扩展程序,对lucene进行二次开发,建设适合本校的专业网络搜索引擎并内嵌到黄页查询中去。   2校园黄页系统技术及功能分析   2.1校园黄页系统所需要实现的功能   2.1.1信息抽取   信息抽取是指从各个网站或者应用系统中将相关的信息提取出来,比如说电话号码、工作地点或者某类教学资源等,一般需要定义特征模式后,再进行抽取,得到待抽取信息块的绝对路径后,信息抽取工作就变成了对信息快内部信息项的集合抽取。   2.1.2信息分类   信息从源位置抽取出来后,还要进行分类,而且分类的标准是越细越好。举例来说,抽取出的电话号码可能分为固定电话和移动电话,而固定电话又分为本地和长途,那么更为精细的划分即将会对检索提供极大的方便。另外,考虑到不同应用系统的差异和信息共享,层次分类法是比较标准的一类方法。它是将标准型的结构要素按其发生作用的有效范围划分不同的层次。   2.1.3信息检索   信息检索是黄页系统的最重要功能,能对上述抽取并分类的信息进行一次和二次检索。检索还可以确定不同的搜索规则,包括搜索深度、搜索范围和更新的频率等。   2.1.4结果展示   黄页系统对于检索结果要以比较人性化的结果呈现给使用者,类似于门户系统一样。这里主要要考虑到检索结果的显示速度以及提供给用户更可观的检索界面,可以使用比较成熟的J2EE架构来开发。   2.2校园黄页系统所使用的技术   实现该系统需要使用下面的关键技术:   2.2.1适合基础教育领域的网站信息抽取技术   这里使用到信息抽取技术包括元数据信息抽取技术和网络爬虫Heritrix技术。网站信息抽取技术是教育网站黄页系统的一种关键性技术。网站的介绍性信息可以帮助用户方便快捷地了解网站资源的概况,直接判断其有效性,而无需访问所有检索结果。网站摘要包含了描述该网站的核心信息,

文档评论(0)

专注于电脑软件的下载与安装,各种疑难问题的解决,office办公软件的咨询,文档格式转换,音视频下载等等,欢迎各位咨询!

1亿VIP精品文档

相关文档