- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Lucene构建条件下的校园网黄页系统研究与实现
Lucene构建条件下的校园网黄页系统研究与实现
引言
随着互联网的迅速发展,信息爆炸的时代已经来临,人们每天在网络上要面对无数的信息和数据。如何对这些数据进行筛选和甄别,从中选取出真实有效且有用的信息,是一件非常困难的事情,特别是当没有一套行之有效的判别标准的时候。传统搜索引擎的出现很大程度上解决了此类问题,使得人们对于信息的检索变得便捷。但是此类搜索引擎在一个特定范围内如校园网络内使用时,弊端会比较明显,检索效率和准确性都不够。将起源于电信行业的黄页系统引入校园网络,会在诸如号码检索、信息检索、地址检索等功能上非常丰富,很多学校已经或者正在准备建设自己的校园黄页系统。
本文在分析搜索引擎的工作原理和黄页系统结构的基础上,利用开源的lucene工具包,搭建出一个适合校园网使用的基础教育黄页系统,能够满足人们对于校园网内网教育信息资源的检索使用需求。
1校园黄页系统概述与Lucene
1.1黄页系统的发展与校园网络黄页系统概述
网络黄页简单地说是为了将传统的纸质黄页搬到网上,利用Internet作为载体,在网上发行、传播、应用的电话簿。随着技术的发展,黄页除了提供基本的电话号码查询业务以外,还能提供其他的信息查询,包含的范围更加宽泛,服务面也更加丰富。目前有3种形式,即电信等ISP部门推出的黄页、门户网站的黄页频道和专业的网络黄页服务机构,校园网络黄页系统就属于第3种形式。
校园网络黄页系统是能够自动生成教育资源黄页目录并在此基础上为用户提供服务的集成系统。它与传统的黄页系统相比较起来,具有专业性较强、涉及范围较小并且服务对象更加集中的特点。通过快速收集校园网络上的教育资源,并自动化的对信息进行加工分类和抽取,形成黄页目录的形式,然后为需要的用户提供信息检索和查询服务。目前在国内外,黄页系统已经发展的非常发达,yahoo, nassau library等网站都提供了基于目录服务的黄页查询系统,无论从访问量还是使用率来看,都是非常可观的。国内高校特别是图书馆方面,也都已经或者正在建设类似的系统,其中,南京师范大学的黄页查询系统就建设的非常具有代表性。
1.2 Lucene基础知识与工具包内容
Lucene是Apache软件基金会jakarta项目组的一个组成子项目,它使用Java编程语言进行开发,是一个实现全文检索引擎工具功能的开放源代码项目,可以很方便地嵌入到各种应用程序中实现针对特定范围和应用的资源索引和检索功能。与其他搜索引擎相比,Lucene具有以下特点:跨平台、分块索引、面向对象、可扩展和查询功能强大。正因为如此,使用lucene来构建专业检索系统会越来越普遍。
高校可通过扩展程序,对lucene进行二次开发,建设适合本校的专业网络搜索引擎并内嵌到黄页查询中去。
2校园黄页系统技术及功能分析
2.1校园黄页系统所需要实现的功能
2.1.1信息抽取
信息抽取是指从各个网站或者应用系统中将相关的信息提取出来,比如说电话号码、工作地点或者某类教学资源等,一般需要定义特征模式后,再进行抽取,得到待抽取信息块的绝对路径后,信息抽取工作就变成了对信息快内部信息项的集合抽取。
2.1.2信息分类
信息从源位置抽取出来后,还要进行分类,而且分类的标准是越细越好。举例来说,抽取出的电话号码可能分为固定电话和移动电话,而固定电话又分为本地和长途,那么更为精细的划分即将会对检索提供极大的方便。另外,考虑到不同应用系统的差异和信息共享,层次分类法是比较标准的一类方法。它是将标准型的结构要素按其发生作用的有效范围划分不同的层次。
2.1.3信息检索
信息检索是黄页系统的最重要功能,能对上述抽取并分类的信息进行一次和二次检索。检索还可以确定不同的搜索规则,包括搜索深度、搜索范围和更新的频率等。
2.1.4结果展示
黄页系统对于检索结果要以比较人性化的结果呈现给使用者,类似于门户系统一样。这里主要要考虑到检索结果的显示速度以及提供给用户更可观的检索界面,可以使用比较成熟的J2EE架构来开发。
2.2校园黄页系统所使用的技术
实现该系统需要使用下面的关键技术:
2.2.1适合基础教育领域的网站信息抽取技术
这里使用到信息抽取技术包括元数据信息抽取技术和网络爬虫Heritrix技术。网站信息抽取技术是教育网站黄页系统的一种关键性技术。网站的介绍性信息可以帮助用户方便快捷地了解网站资源的概况,直接判断其有效性,而无需访问所有检索结果。网站摘要包含了描述该网站的核心信息,
您可能关注的文档
- 10kV电网中外网配套施工技术的管理应用.doc
- 1 例合并多种基础疾病老年患者的抗感冒药物应用分析.doc
- 15-脱氧-前列腺素J2对巨噬细胞移动抑制因子表达的影响.doc
- 18 世纪德国学者穆尔的中国研究分析.doc
- 15-LO 在慢性髓系白血病中作用的研究发展.doc
- 129 例染色体多态变异与生殖异常的临床研究.doc
- 150例脑梗死患者的临床护理探析.doc
- 172例真菌的分离鉴定及药物敏感性分析.doc
- 18 世纪英国中产阶级文化的实效性分析.doc
- 1860年后上海公共租界的诞生以《美国对外关系文件集》为例.doc
- 中级财务会计 第6版 教案 第1章 总论.doc
- 《新编商务应用文写作》课件 -模块二 常用行政公文.pptx
- 项目管理 课件 第四章—项目范围管理.pptx
- (完整版)2018人教版一年级下册语文各课知识点汇总.pdf
- (人教版)初中生物七年级下册第四单元第四章人体内物质的运输综合测试01(附答案).pdf
- (完整版)2017最新部编人教版一年级下册语文看拼音写词语.pdf
- ZLJ临时支护装置使用说明书(1).docx
- 新型冠状病毒疫情防控应急预案.docx
- 22066_1.公共部分-煤矿安全.docx
- 工业互联网安全技术(微课版)课件 项目4--7 工业互联网网络安全---工业互联网安全新技术认识 .ppt
最近下载
- 2025年秋学期部编版2025—2025学年度第一学期小学语文二年级上册教学计划附教学进度表2025.pdf VIP
- 北师大版七年级上册数学全册教案教学设计及教学反思.doc
- 计算机一级 WPS office认证理论知识考试题库.docx
- 冠状动脉解剖及冠脉造影结果解读.ppt VIP
- IPD_PSSD_T_0045 测试用例模板_V2.1.xls VIP
- 公务员行测言语理解与表达试题题库新版.docx VIP
- 有色金属与粉末冶金材料.doc VIP
- 《中外学前教育史》教案第16课近代俄国和日本的学前教育.docx
- 快手中秋重阳创意短片IP招商方案.pptx VIP
- 2025年秋学期部编版小学语文二年级上册教学计划教学进度表.docx VIP
- 软件下载与安装、电脑疑难问题解决、office软件处理 + 关注
-
实名认证服务提供商
专注于电脑软件的下载与安装,各种疑难问题的解决,office办公软件的咨询,文档格式转换,音视频下载等等,欢迎各位咨询!
文档评论(0)