- 1、本文档共3页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Lucene/XML的全文检索机制研究.pdf
总第 105期 闺 .徂 .乞^ NO.105
2005年 6月 Jun.,2005
基于Lucene/XML的全文检索机制研究
周 宁 谷宏群
(武汉大学信息管理学院,武汉,430072)
[摘要] 本文简述 了网络环境下站内全文检索的必要性,对 XML及基于Java的全文索引工具包
Lucene进行 了简介,探讨 了使用 XML技术及 Lucene进行站 内全文检索的实现机制。
[关键词] 全文检索 LuceneXML
[中图分类号]G252.7 [文献标识码]A [文章编号]1003—2797(2005)03—0075—03
1 站 内全文检索的必要性 更具访问性 ,保证了检索结果具有针对性和更加准
目前,很多站点都使用 Google的站内检索功能 确。XML文件 的作者可以选择性地利用 DTD或
来代替 自己的站 内数据库”全文”检索。但依靠 XML模式 (XMLSchema)来确认文件的有效性,而
Google这样 的大型搜索引擎做站 内检索会有以下 HTML不具有这个性质。XML还包括可扩展格式
弊端 : 语言 XSL和可扩展链接语 言 XLL。XSL用于将
(1)数量有限。搜索引擎不会深度遍历一个网站, XML数据翻译为 HTML或其它格式 的语言。它
而将网站所有内容都索引进去,如Google就喜欢静态 提供了一种叠式页面功能,可以构造出具有表达层
网页,而且是最新更新的,而不喜欢带?的动态网页, 结构的页面,以有别于 XML的数据结构。它还可
Google甚至会定期将缺少入 口的网站内容逐渐抛弃。 解释数量不限的标记,使 Web页面更加丰富多彩,
(2)更新慢。搜索引擎针对站点的更新频率是有一 并可处理多国文字、汉字显示和网格处理等。
定周期的,很多内容需要一定时间后才能进入 Google XML在后台数据交换方面 ,有着巨大的潜力。
的索引。目前GoogleDance的周期是 21天左右。 在前台表现方面,XML并不会马上代替 HTML,很
(3)内容不精确。搜索引擎需要通过页面内容 多通过 XSLT输 出的HTML仍然需要结合 CSS来
提取技术将导航条 、页头页尾等内容过滤掉,反而不 进行表现。XML= XSLT=害》HTML+CSS。但是
如直接从后台数据库提取数据来得直接,这种摘要 由于太多的网页都是用 HTML做的,相信 XML没
和排重机制是很难实现的。 有必要马上代替这些已有的机制 。
(4)无法控制输出。也许有更多的输出需求,按 此外在应用的国际化支持方面,XML和 Java简
时间排序、按价格、按点击量、按类 目过滤等。 直是绝配:XML数据源用Java解析后是 UNICODE,
2 为什么使用XML 这样无论是 日文、繁体中文还是德文的内容我们都可
XML(ExtensibleMarkupLanguage)称为可 以在一个索引库中同时进行搜索。这样针对其他语
扩展标记语 言,是一种新 的标记语 言规范。它是 言的支持只是设计各种语言界面的问题了。
Web标准化组织 W3C对复杂 的SGML进行简化 。 \ / ㈣
后制定的一种标记语言规范,是 SGML的一个严格 ’。。::::::. 。。 [::::::: nicud‘::::::—一
您可能关注的文档
- 四节点异地分布式邮件系统实施方案.pdf
- 回归原型策略的常见类型.pdf
- 回顾性队列研究腹腔分碎术对局限性子宫平滑肌肉瘤预后的影响评价.ppt
- 回风上山安全技术措施.doc
- 因特网上SCI的检索技巧.pdf
- 因特网信息的查找——搜索技巧.doc
- 因特网接入服务业务申请所需填写材料和注意事项.doc
- 团购王用户协议.doc
- 围岩位移特性曲线预测的自适应神经模糊推理方法在软岩巷道中的应用.doc
- 固话接入方案移动光纤接入.doc
- 2025-2030年中国肝病药物行业发展前景分析与投资风险评估报告.docx
- 2025-2030年中国绝热隔音材料行业市场现状及发展前景预测研究报告.docx
- 2025-2030年中国维生素C行业投资分析及发展战略研究报告.docx
- 2025-2030年中国翻译行业市场运行状况及发展趋势前瞻报告.docx
- 2025-2030年中国联苯双酯市场发展趋势与投资战略研究报告.docx
- 2025-2030年中国肿瘤治疗机行业运行格局及未来投资战略决策报告.docx
- 2025-2030年中国给水用ppr塑料管道行业发展前景规划及投资风险评估报告.docx
- 2025-2030年中国船舶主机产业深度调查及投资盈利前景展望研究报告.docx
- 2025-2030年中国船舶电气控制设备市场运行态势分及竞争策略研究报告.docx
- 2025-2030年中国自动售货机行业全景调研及市场运行态势预测研究报告.docx
文档评论(0)