基于Lucene_XML技术的Web搜索引擎设计与实现.pdfVIP

基于Lucene_XML技术的Web搜索引擎设计与实现.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第 36卷  第 4 期 航 空 计 算 技 术 Vo l. 36 No. 4 2006年 7 月 A eronautical Comp uting Techn ique Ju ly. 2006 基于 Lucene \XML 技术的 W eb搜索引擎设计与实现 孔伯煊 , 李  祥 (贵州大学 计算机软件与理论研究所 , 贵州 贵阳 550025) 摘  要 : Lucene是一个强大的开放源代码的全文索引引擎工具包 ,对它进行分析应用有利于研究搜 索引擎的相关技术 。本文使用 Lucene \XML 技术设计并实现了一个 W eb 搜索引擎 ,可对 W eb 站点 的全部文本 、图片 、音频三类数据的进行索引;采用了 XML 作为数据存储容器 ,可在大信息环境下 极大地节省存贮空间和提高索引的速度 ; 同时在客户端方面引进了移动客户搜索界面 ,把搜索引擎 的功能进一步扩大到手机客户 ,在移动通信高速发展的今天 ,有着重要的意义 。 关键词 :搜索引擎 ; Lucene; XML ; 索引; 检索 ; W ap 中图分类号 : TP393. 092    文献标识码 : A     文章编号 : 167 1654X (2006) 04 0005 04 引言 提供方便的查看方式 。 在过去几年里 , In ternet 的资源迅速增长 ,使 W eb 存储模块 :建立基于 XML 的数据存储 ,这里的目 的是为了提高建立索引的速度跟减小存储的空间。因 发展成为包含多种信息资源 、站点遍布全球信息服务 为规范化的存储能避免对所有搜索到文件都进行单独 网络 。在这种大环境里 , 网络上出现了很多商业性的 ( ) 存储 ,减少存储空间 特别是图片和音频信息 ,提高 W eb搜索引擎 ,如 Google、百度 、Sougo 等 ,他们极大地 方便了网络用户 。但 由于他们是商业性质 ,他们的关 管理效率 ;另外 ,把搜索到的信息存进单一的 XML 文 键技术对于外界是保密的。为推进搜索引擎技术的发 档中 ,相对于每个独立文件 ,它可以减少索引程序进行 展 , Ap ache基金会 jakarta推出了一个开源的全文索引 文件定位和打开关闭文件所需要的时间 ,这在数据量 比较大的时候效果特别明显 。 引擎工具包 Lucene。本文使用 Lucene \ XML 技术设计 并实现了一个 W eb搜索引擎 ,可对 W eb站点的全部文 本 、图片 、音频三类数据的进行索引;采用了 XML 作为 2 系统的具体实现 数据存储容器 ,可在大信息环境下极大地节省存贮空 2. 1 系统结构 间和提高索引的速度 ; 同时在客户端方面引进了移动 根据上面所讨论的功能设计 目标 ,一个 W eb 搜索 客户搜索界面 ,把搜索引擎的功能进一步扩大到手机 引擎的结构如图 1所示 。

文档评论(0)

sdfgrt + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档