基于Lucene/XML的全文检索机制研究.pdfVIP

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Lucene/XML的全文检索机制研究.pdf

总第 105期 闺 .徂 .乞^ NO.105 2005年 6月 Jun.,2005 基于Lucene/XML的全文检索机制研究 周 宁 谷宏群 (武汉大学信息管理学院,武汉,430072) [摘要] 本文简述 了网络环境下站内全文检索的必要性,对 XML及基于Java的全文索引工具包 Lucene进行 了简介,探讨 了使用 XML技术及 Lucene进行站 内全文检索的实现机制。 [关键词] 全文检索 LuceneXML [中图分类号]G252.7 [文献标识码]A [文章编号]1003—2797(2005)03—0075—03 1 站 内全文检索的必要性 更具访问性 ,保证了检索结果具有针对性和更加准 目前,很多站点都使用 Google的站内检索功能 确。XML文件 的作者可以选择性地利用 DTD或 来代替 自己的站 内数据库”全文”检索。但依靠 XML模式 (XMLSchema)来确认文件的有效性,而 Google这样 的大型搜索引擎做站 内检索会有以下 HTML不具有这个性质。XML还包括可扩展格式 弊端 : 语言 XSL和可扩展链接语 言 XLL。XSL用于将 (1)数量有限。搜索引擎不会深度遍历一个网站, XML数据翻译为 HTML或其它格式 的语言。它 而将网站所有内容都索引进去,如Google就喜欢静态 提供了一种叠式页面功能,可以构造出具有表达层 网页,而且是最新更新的,而不喜欢带?的动态网页, 结构的页面,以有别于 XML的数据结构。它还可 Google甚至会定期将缺少入 口的网站内容逐渐抛弃。 解释数量不限的标记,使 Web页面更加丰富多彩, (2)更新慢。搜索引擎针对站点的更新频率是有一 并可处理多国文字、汉字显示和网格处理等。 定周期的,很多内容需要一定时间后才能进入 Google XML在后台数据交换方面 ,有着巨大的潜力。 的索引。目前GoogleDance的周期是 21天左右。 在前台表现方面,XML并不会马上代替 HTML,很 (3)内容不精确。搜索引擎需要通过页面内容 多通过 XSLT输 出的HTML仍然需要结合 CSS来 提取技术将导航条 、页头页尾等内容过滤掉,反而不 进行表现。XML= XSLT=害》HTML+CSS。但是 如直接从后台数据库提取数据来得直接,这种摘要 由于太多的网页都是用 HTML做的,相信 XML没 和排重机制是很难实现的。 有必要马上代替这些已有的机制 。 (4)无法控制输出。也许有更多的输出需求,按 此外在应用的国际化支持方面,XML和 Java简 时间排序、按价格、按点击量、按类 目过滤等。 直是绝配:XML数据源用Java解析后是 UNICODE, 2 为什么使用XML 这样无论是 日文、繁体中文还是德文的内容我们都可 XML(ExtensibleMarkupLanguage)称为可 以在一个索引库中同时进行搜索。这样针对其他语 扩展标记语 言,是一种新 的标记语 言规范。它是 言的支持只是设计各种语言界面的问题了。 Web标准化组织 W3C对复杂 的SGML进行简化 。 \ / ㈣ 后制定的一种标记语言规范,是 SGML的一个严格 ’。。::::::. 。。 [::::::: nicud‘::::::—一

文档评论(0)

ziyouzizai + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档