由Lucene建立地震资料文献全文索引检索系统.pdf

由Lucene建立地震资料文献全文索引检索系统.pdf

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
由Lucene建立地震资料文献全文索引检索系统

第 3期 (总第 128期 ) 四 川  地  震 No3                         2008年 9月 EA R TH Q U A KE R ESEAR C H  IN  SIC HU AN Sep t. 2008 由 Lucene建立地震资料文献全文索引检索系统 1 1 2 吴微微 , 李谊瑞 , 杨建思 ( 1四川省地震局 , 四川  成都  6 1004 1; 2中国地震局地球物理研究所 , 北京  100081) 摘要 : 针对如何科学 、高效地管理四川省地震监测台网中心常年积累下来的地震资料文献这一难题 , 设计了基 于 Lucene 的全文索引检索程序 。本文给出了程序的体系结构 , 说明了程序的主要模块及其基本功能 , 并详细介 绍了程序实现的关键技术 。 关键词 : Lucene; 全文检索 ; 搜索引擎 ; 地震信息 中图分类号 : P3 1569   文献标识码 : A    文章编号 : 1001 - 8115 (2008) 03 - 0020 - 04   随着地震观测从模拟到数字技术的转变 , 数字地震台网中心产出的资料文献急剧增长 。目前四川数字 地震台网资料中心有测震数据 、编 目资料 、台站信息、仪器配置等多种资料 ; 既有全省的 , 也有区域性 的 , 有短期的 , 也有专注某一领域的资料 。文献资料的种类繁多、数量大 、结构复杂 。随着时间的延续 , 资料种类和数量在不断增多 , 对于资料的处理变得越来越困难 。要从这样庞大的信息资源中筛选出符合用 户需要的信息 , 作为现代信息获取技术的主要应用 —搜索引擎是必不可少的。现代信息获取技术涉及信息 的表示 、存储 、组织 。一般的信息获取流程是 : ①构造文本数据库 ; ②建立文档索引; ③对文档进行检 索 ; ④最后根据查询获取检索结果 [ 1 ] 。首先由用户给出查询条件 , 计算机分析查询语句后利用文本处理 技术进行处理 。由于传统的数据库字段检索技术是为提高查询速度而设计的 , 并非以全文检索为 目的 , 因 此 , 我们选择了全文索引与检索技术中比较优秀的产品 Lucene来实现地震资料文献的全文检索 。 1 Lucene全文检索引擎 全文检索是指计算机索引程序通过扫描文章中的每一个词 , 对每一个词建立索引 , 指明该词在文章中 出现的次数和位置 , 当用户进行查询时 , 检索程序就根据事先建立好的索引进行查找 , 并将查找的结果反 馈给用户 。全文检索系统具有建立索引、处理查询返回结果集 、增加索引、优化索引结构等功能 。全文检 索引擎工具包 org. ap ache. Lucene是用纯 java语言开发的 , 它能为用户提供完整的查询引擎和索引引擎 。 Lucene不同于传统数据库 , 传统的数据库字段检索技术在使用 “like ‘keyword ’”模糊查询时 , 无法发挥 作用 。而 Lucene更类似于一个支持全文检索的数据库系统 。表 1对比了 Lucene检索和数据库模糊查询的 区别 [ 2 ] 。 通过表 1可见 , Lucene和数据库检索最大的区别在于让头 100 条记录满足 90% 以上用户的需要 。Lu cene通过大量的映射进行相似度运算 , 使得相似度最高的记录能够首先提供给用户 , 并过滤掉相似度过 于低下的记录 。Lucene最核心的特征是通过特殊的索引结构实现传统数据库不擅长的全文索引机制 , 并 提供了扩展接口以方便不同

文档评论(0)

yan698698 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档