- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
长江大学学报 (自然科学版) 2010年3月第7卷第1熟 理工
· 216 · J咖malofYangtzeUniversity(NatSeiEdit) Mar.2010,Vo1.7No.1:Sci Eng
可扩展数据库搜索引擎的研究和实现
时贵英 (大庆石油学院计算机与信息技术学院,黑龙江大庆163318)
吕洪涛 (大庆市邮政局,黑龙江大庆163000)
[摘要]将元数据与搜索引擎结合起来,通过元数据对集成数据源的描述,屏蔽 了数据源的分布性和异构
性,为索引和查询提供 了统一的数据接 口,在需要加入新的数据源对,只需要实现相应的元数据提取和
转换,对搜索引擎其他各部件并无影响,提高了系统的扩展性。在搜索引擎的实现过程中,利用Lucene
没有具体的数据源、支持增量索引和中文检索等特点,在 Lucene的基础上进行了二次开发和应用,实现
了一个可扩展的、高效的数据库搜索引文擎。
[关键词]搜索引擎;元数据;Lucene
[中图分类号]TP311 [文献标识码]A [文章编号]1673—1409(2010)01一N216—03
随着社会的发展和时问的推移,企业的信息量呈现爆炸式的扩展,要在如此浩瀚的信息海洋里快
速、准确、高效地查找信息,传统的数据库查询和对于数据字段的模糊匹配搜索查询已远远不能满足人
们的需求,拥有一个高效的搜索引擎成为当前每个企业追求的目标。经调查发现,大量有价值的业务数
据经常存储于各种异构数据库中,而数据库的存储方式对访 问权限的限制、结构化SQL查询和数据存
储结构异构性特点为搜索引擎的实现带来了限制和困难[1]。
目前国内还没有专门针对异构数据库的引擎,比较好的像 “天网”、 “网络指南针”、 “木棉”等搜索
引擎的索引结构都不是基于Lucene实现的,它们在实现结果排序时主要采用的索引相关度算法都不是
针对数据库的,没有考虑到专业领域数据的特殊性口]。为此,笔者设计并实现了一个可扩展异构数据库
搜索引擎。
1 元数据
元数据是对业务数据本身及其运行环境的描述与定义的数据,它是一种结构化的信息,用于对某项
信息资源进行描述、解释、定位,使其易于提取和使用。使用元数据对异构数据进行抽象和概括,将有
利于数据资源的整合与传播。已有的关于元数据的研究大多集中于特定领域内的信息管理或基于语义的
检索方法,并未将元数据应用于不同系统问数据资源的整合与集成[3j。将元数据与搜索引擎结合起来,
通过元数据对异构数据源进行描述,可以将数据源有效地管理起来,从而有效地解决搜索引擎不能够对
异构数据进行检索的问题。
2 Lucene
Lucene是用 Java写的全文索引引擎工具包,支持多种操作系统,它提供 了多个API函数和灵活的
数据存储结构。Lucene的API接 口设计类似于数据库的表、记录、字段,实现了传统数据库不擅长的
全文索引机制,绝大部分的数据库检索都可以方便地映射到Lucene的存储结构接 口中。Lucene的优点
可以总结为以下几点:
1)可以灵活地对数据进行批量索引和增量索引 在首次建立索引时,Lucene采取批量索引方式创
建索引文件。当索引需要更新时,Lucene采取的办法是不断创建新的索引文件 ,然后定期地把这些新
的小索引文件合并到原先的大索引中 (针对不同的更新策略,批次的大小可以调整),这样在不影响检
索效率的前提下,提高了索引的效率。
[收稿日期]2009—12—24
[作者简介]时贵英 (1977一),女,2001年大学毕业,硕士,讲师,现主要从事软件工程与集成技术方面的研究工作。
第 7卷 第 1期 :理工 时贵英等 :可扩展数据库搜索引擎的研究和实现 ·217 ·
2)具有极其灵活的数据源 Lucene没有定义具体的数据源,而只提供一个通用的结构 (Docu—
ment对象)来接受索引的输入 ,输入的数据源可以是数据库、word文档、PDF文档和 HTML文档
等 。只要前端有合适的转换器把数据源转换成相应结构就可以进行数据索引了。
3)支持中文检索 对于中文用户来说,最关心的问题是其是否支持中文的全文检索。Lucene良好
的架构设计,只需对其语言词法分析接 口进行扩展就能实现对 中文的检索
文档评论(0)