网站大量收购独家精品文档,联系QQ:2885784924

网络检索系统的设计方案.docVIP

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
网络检索系统的设计方案.doc

基于Lucene的网络教学 资源检索系统的设计与实现 ? 李勇1? 王移芝2 (1.北京理工大学,北京 100081;2.北京交通大学,北京 100044) ? ??? 摘 要? 在网络教学资源平台中加入资源搜索功能,有利于学习者快速定位学习资源。本文在开源搜索引擎Lucene的基础上,设计并实现一个网络教学资源检索系统。 首先介绍如何用XML来组织网络教学资源,接着分析了系统的功能目标和体系结构,最后对系统的索引构建和检索系统实现中的关键技术进行探讨。 ??? 关键词? 网络教育;教学资源;资源检索;Lucene;XML ? 1 ?前言 ??? 随着网络教育迅速发展,各种形式的网络教学资源日趋丰富,信息的种类也在不断的扩展。一方面越来越 多的非结构化信息不断出现,如文本、图像、动画、音频、视频等,这些资源都属于非结构化数据,与之相应的网络教学资源的组织却不尽如人意,找到所需要的教 学资源是一件费时费力的事。另一方面大量的冗余信息、过载信息使得用户难以准确快速地找到他所需求的信息和资源。 ??? 在此背景下,本文结合校重点教改项目“数字媒体资源建设的研究与实践”,其总体思想是开发以XML 为结构和内容载体的数字媒体资源库,并将其以丰富的表现形式在浏览器中显示出来。笔者在本文中主要讨论如何在数字媒体资源平台中加入中英文搜索引擎。使用 Lucene 和XML技术设计并实现一个Web搜索引擎,可对数字媒体资源平台中的全部文本、图片、视频、动画等资源进行搜索,以便学生和教师用户快速定位和找到所需 要的数字媒体资源。 ??? Lucene 不是一个完整的全文索引应用,而是一个用Java 写的全文索引引擎工具包,它可以方便地嵌入到各种应用中实现针对应用的全文索引、检索功能。可以把Lucene 当成一个支持全文索引的数据库系统[1]。 其组织结构如图1所示。Lucene 包含了大量的抽象类、接口、文档类型等,需要根据具体应用来定义实现,本文通过扩充Lucene 包来完成中文的全文检索功能。 图1? Lucene系统的结构组织图 2 ?系统功能目标设计?? ??? 本文实现的教学资源搜索引擎主要由四大功能模块组成: ??? (1)存储模块:本系统在资源的组织上,将资源的相关信息用XML文件来存放,使其独立于各种平 台,以便数据能够方便地进行传递。把搜索到的信息也存进单一的XML 文档中,相对于每个独立文件,它可以减少索引程序进行文件定位和打开关闭文件所需要的时间,这在数据量比较大的时候效果特别明显[2]。 资源存储描述如图2所示。 ??? 在系统中,对资源源数据描述包括资源描述、知识点描述、关键词描述、试题描述、用户信息描述。资源 描述是对系统中各种资源的描述信息包括资源ID、资源关键字、资源章节、资源类型、资源存放路径等信息;资源信息的描述采用了IMS 的内容包装规范,这种规范的优点是可以清晰地描述资源的结构及相关资源的存储位置,同时具有很高的扩充性,为搜索引擎的应用提供了方便。 ??? (2)文档分析模块:该模块主要针对XML文件,其主要功能是把XML标签去掉。 ??? (3)索引模块: 主要负责新建索引、更新索引,以及维护数据索引。索引程序需要对XML文档中的文本、图像、动画、音频、视频等数据进行索引,为索引程序的运行过程建立运 行日志,并存盘。 ??? (4)检索模块:以Web页面作为用户检索的界面,对数据进行检索,支持高级查询,对检索结果提供 方便的查看方式。 图2? 资源描述XSD文件的直观图 3 ?系统结构图与XML处理 3.1 系统结构图 图3? 搜索引擎结构图 ??? Lucene本身只是一个组件,而非一个完整的应用,所以若想让Lucene在数字媒体资源平台上 运行,需在Lucene基础上进行必要的二次开发。在本系统中利用Jsp+Javabean技术,构建搜索引擎模式。Jsp负责页面处理,数据和逻辑处理 则由JavaBeans完成[3]。图3为搜索引擎的结构图。 3.2? XML文档处理 ??? 根据系统词典,用MM法对资源关键字和描述分词后,接着要建立索引,Lucene对文件进行索引使 用的是IndexWrite类。因为Lucene本身只能对TXT文件和HTML文件进行索引,所以要对其它的文档进行索引,还必须扩展Lucene的文 件内容分析器[2]。 ??? 资源文件的信息以XML文档存储,XML中有大量的标记,如在 “Resourcestype04/type/Resources”中的 “type ”和“/type ”对搜索来说是噪音信息,这些标记必须首先去掉,才能进行进一步的处理。其基本原理是在碰到“”或“/’标记时,就向下 找”标记,找到后,将“”或“/”同“”之间的内容在一张标记词表中检索,这张词表包

您可能关注的文档

文档评论(0)

docindoc + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档