基于XML搜索引擎.docVIP

下载本文档

56
0
约2.96千字
约 8页
2018-08-28 发布于福建
举报
版权申诉

基于XML搜索引擎.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于XML搜索引擎

基于XML搜索引擎　　摘要：对比介绍了XML语言与HTML语言以及搜索引擎的工作原理和相关的几项技术，设计了基于XML的搜索引擎的模型，介绍了模型的设计思想及大体框架。模型包括机器人模块、转换模块、解析模块、索引模块和查询模块这几部分。　　关键词：XML;HTML;搜索　　　　1 引言　　　　HTML-Hypertext Markup Language，即超文本标记语言。以其简单精炼的语法、极易掌握的通用性与易学性，使互联网也才得以普及发展以至今日的辉煌。然而，随着网络应用的发展，出现了Web文件的复杂化、多样化、智能化，另外同样的数据能否根据不同用户的需求以不同的效果、形式、表达再现出来也是人们关注的问题。可扩展标记语言就是在这样的背景下应运而生，以XML为基础的新一代WWW环境是直接面对Web数据的，不仅可以很好的兼容原有的Web应用，而且可以更好的实现Web中的信息共享与交换，随着XML的广泛应用，基于XML文档的搜索引擎模型就成为众望所归。　　　　2 搜索引擎的工作原理　　　　一般说来，搜索引擎由搜索器、索引器、检索器和用户接口四个部分组成。　　2.1 搜索器一抓取网页　　搜索器根据一定的网页搜集策略和规划，调度运行网页自动搜索软件如Crawl、Spider等，对互联网上的网页进行快速有效的搜集，并将它们存入搜索引擎的网页数据库中。　　2.2 索引器一处理网页　　索引器的功能是理解搜索器所搜索的信息，从中抽取出索引项用于表示文档以及生成文档库的索引表。此外还包括去除重复网页、分析超链接、计算网页的重要度功能等。　　2.3 检索器一提供检索服务　　检索器的功能是根据用户的查询在索引库中快速检出文档，进行文档与查询的相关度评价，对将要输出的结果进行排序，并实现用户相关性反馈。　　2.4 用户接口一界面　　用户接口的作用是便于输入用户查询、显示查询结果、提供用户相关性反馈，分为简单接口和复杂接口两种类型。简单接口只提供用户输入查询串的文本框，复杂接口可以让用户对查询进行限制。　　　　3 基于XML的搜索引擎整体设计　　　　基于XML的搜索引擎的总体结构和普通的基于HTML的搜索引擎一样仍然包括网页采集、索引以及用户查询这几大模块，但是，由于HTML语言与XML语言并存，必需有把HTML格式的文档转换为XML格式的转换模块。另外针对XML文档的特点，建立索引之前需要提取XML文档的文本信息和结构信息，这个工作由一个XML解析器来完成，所以在索引模块中应加入一个XML文档解析器，文中把加入解析器后的索引模块称为解析索引模块。　　所以基于XML的搜索引擎应由网页采集模块、HTML到XML转换模块、网页解析和索引模块、用户查询模块这四部分组成。如图1所示。　　　　4 模块设计　　　　4.1网页采集器模块　　基于XML的搜索引擎的网页采集器模块和基于HTML的普通搜索引擎的网页采集器职能相同，它们都是一个Robot程序通过在Internet上一刻不停的漫游，抓取网页资源，同时定期浏览己存储在自己数据库中的网页，以避免网页过期导致的无效链接。机器人和web站点的web服务器通过HTTP ( Hypertext Transfer Protocol)协议进行交互，从Web站点下载XML文档和HTML文档。　　4．2转换模块　　机器人模块下载的文档包括HTML文档和XML文档，而索引器要为XML文档建立索引，必须把HTML文档转换为XML文档，这就需要有个转换器。　　转换方法主要有：HTML文档直接向XML的转换；利用XHTML进行转换；利用智能代理进行转换。文章使用了网上的转换工具(http: //www.html2XML.com/Html2XMLIntro. asp)这个转换工具，可以对网络HTML格式资源的URL或上载一个HTML文档进行转换为XML，输出XML文档格式，通过IE5.0内嵌的样式表进行显示，还可以下载XML2html.xsl工具把XML文档转换回HTML文档。　　4．3解析索引模块　　基于XML搜索引擎的解析与索引模块是整个搜索引擎最关键的部分。XML文档是一种半结构化的数据，它的数据包含结构和内容两部分，在对它建立索引前首先必须对它进行解析，将结构信息和内容信息分别提取出来为它们建立索引。在对以前的HTML文档数据建立索引时，需要保存的信息主要是文档中的词项信息，就是某一个词项在那篇文档中出现，出现了几次以及出现的位置，所谓的词项即是在检索的时候用户可能输入的关键词。对XML文档数据建立索引时，要保存更多的信息。首先当然是标签间的数据信息，另外还有标签信息和文档中标签的嵌套层次信息。衡