- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于XML搜索引擎
基于XML搜索引擎
摘要: 对比介绍了XML语言与HTML语言以及搜索引擎的工作原理和相关的几项技术,设计了基于XML的搜索引擎的模型,介绍了模型的设计思想及大体框架。模型包括机器人模块、转换模块、解析模块、索引模块和查询模块这几部分。
关键词:XML;HTML;搜索
1 引言
HTML-Hypertext Markup Language,即超文本标记语言。以其简单精炼的语法、极易掌握的通用性与易学性,使互联网也才得以普及发展以至今日的辉煌。然而,随着网络应用的发展,出现了Web文件的复杂化、多样化、智能化,另外同样的数据能否根据不同用户的需求以不同的效果、形式、表达再现出来也是人们关注的问题。可扩展标记语言就是在这样的背景下应运而生,以XML为基础的新一代WWW环境是直接面对Web数据的,不仅可以很好的兼容原有的Web应用,而且可以更好的实现Web中的信息共享与交换,随着XML的广泛应用,基于XML文档的搜索引擎模型就成为众望所归。
2 搜索引擎的工作原理
一般说来,搜索引擎由搜索器、索引器、检索器和用户接口四个部分组成。
2.1 搜索器一抓取网页
搜索器根据一定的网页搜集策略和规划,调度运行网页自动搜索软件如Crawl、Spider等,对互联网上的网页进行快速有效的搜集,并将它们存入搜索引擎的网页数据库中。
2.2 索引器一处理网页
索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项用于表示文档以及生成文档库的索引表。此外还包括去除重复网页、分析超链接、计算网页的重要度功能等。
2.3 检索器一提供检索服务
检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现用户相关性反馈。
2.4 用户接口一界面
用户接口的作用是便于输入用户查询、显示查询结果、提供用户相关性反馈,分为简单接口和复杂接口两种类型。简单接口只提供用户输入查询串的文本框,复杂接口可以让用户对查询进行限制。
3 基于XML的搜索引擎整体设计
基于XML的搜索引擎的总体结构和普通的基于HTML的搜索引擎一样仍然包括网页采集、索引以及用户查询这几大模块,但是,由于HTML语言与XML语言并存,必需有把HTML格式的文档转换为XML格式的转换模块。另外针对XML文档的特点,建立索引之前需要提取XML文档的文本信息和结构信息,这个工作由一个XML解析器来完成,所以在索引模块中应加入一个XML文档解析器,文中把加入解析器后的索引模块称为解析索引模块。
所以基于XML的搜索引擎应由网页采集模块、HTML到XML转换模块、网页解析和索引模块、用户查询模块这四部分组成。如图1所示。
4 模块设计
4.1网页采集器模块
基于XML的搜索引擎的网页采集器模块和基于HTML的普通搜索引擎的网页采集器职能相同,它们都是一个Robot程序通过在Internet上一刻不停的漫游,抓取网页资源,同时定期浏览己存储在自己数据库中的网页,以避免网页过期导致的无效链接。机器人和web站点的web服务器通过HTTP ( Hypertext Transfer Protocol)协议进行交互,从Web站点下载XML文档和HTML文档。
4.2转换模块
机器人模块下载的文档包括HTML文档和XML文档,而索引器要为XML文档建立索引,必须把HTML文档转换为XML文档,这就需要有个转换器。
转换方法主要有:HTML文档直接向XML的转换;利用XHTML进行转换;利用智能代理进行转换。文章使用了网上的转换工具(http: //www.html2XML.com/Html2XMLIntro. asp)这个转换工具,可以对网络HTML格式资源的URL或上载一个HTML文档进行转换为XML,输出XML文档格式,通过IE5.0内嵌的样式表进行显示,还可以下载XML2html.xsl工具把XML文档转换回HTML文档。
4.3解析索引模块
基于XML搜索引擎的解析与索引模块是整个搜索引擎最关键的部分。XML文档是一种半结构化的数据,它的数据包含结构和内容两部分,在对它建立索引前首先必须对它进行解析,将结构信息和内容信息分别提取出来为它们建立索引。在对以前的HTML文档数据建立索引时,需要保存的信息主要是文档中的词项信息,就是某一个词项在那篇文档中出现,出现了几次以及出现的位置,所谓的词项即是在检索的时候用户可能输入的关键词。对XML文档数据建立索引时,要保存更多的信息。首先当然是标签间的数据信息,另外还有标签信息和文档中标签的嵌套层次信息。衡
您可能关注的文档
最近下载
- 上半年基本公共卫生服务项目工作总结.docx VIP
- 北师版小学五年级上册数学 第七单元 可能性 第七单元复习.ppt VIP
- 子宫内膜异位症诊治指南(第三版).pptx VIP
- 软件工程——理论与实践(附微课视频 第3版)吕云翔课后习题答案解析.pdf
- 历史故事教学法在初中历史时空观念培养中的实践研究教学研究课题报告.docx
- 云南省港航投资建设有限责任公司笔试题目.pdf VIP
- 施耐德ATS22软启动器使用说明.docx VIP
- 造纸工艺流程 完整版课件PPT.pptx VIP
- 常州大地测绘中文电子经纬仪使用说明书2012220.doc VIP
- 人工智能在促进中小学教育改革与发展中的作用研究教学研究课题报告.docx
原创力文档


文档评论(0)