- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
让使用者创建和使用他们自己的标记,而不是HTML的有限的词汇表。同时XML的标记是用户遵守标
记命名规则自由定义的,它可以定义数量无限的文件类型,并通过自行设计的有意义标记进行异构系统
之间的数据交换和信息检索,实现机器与机器之间的信息交换,是网络问传送结构化资料变得简单,各
种数据资料得存取更方便快捷。
2.2 DTD(Document
TypeDefinition)
DTD,即文档类型定义。是对一种数据文件中的数据的组织存放结构的说明。它描述了—个标记语言
的语法和词汇表,也就是定义了文件的整体结构以及文件的语法;它严格的定义了某项数据应该在哪儿
出现。有了DTD,人们便可通过共同的DTD来相互交换数据,可以使用DTD来验证所接受的XML文
档是否是有效的。DTD可以直接定义在XML文档中,也可以作为外部引用。
3.XML搜索引擎技术
处理大容量数据及解决办法
对于搜索引擎来说,当索引量和搜索量大到一定程度的时候,索引更新的效率会逐渐降低,服务器
的压力逐渐升高,因此基本上整个搜索引擎的利用率可以说是越来越低了,并且海量数据存储也会带来
困难。解决办法就是采用分布式元搜索引擎,指在统一的用户查询界面与信息反馈的形式下,共享多个
搜索引擎的资源库为用户提供信息服务的系统。元搜索引擎是对搜索引擎进行搜索的搜索引擎。
分布式元搜索与一般搜索引擎的最大不同在于它可以没有自己的资源库和机器人,它充当一个中间
代理的角色,接受用户的查询请求,将请求翻译成相应搜索引擎的查询语法。在向各个搜索引擎发送查
询请求并获得反馈之后,首先进行综合相关度排序,然后将整理抽取之后的查询结果返回给用户。元搜
索引擎查全率高、搜索范围更多更大,查准率也并不低。
分布式元搜索引擎包括Web服务器、结果数据库、检索式处理、Web处理接口、结果生成等几个部
分,其中用户通过Web服务器访问元搜索引擎,而元搜索引擎则通过Web处理接口访问其它外部的搜
索引擎。其系统结构如图1所示。
图1分布式元搜索引擎系统结构
用户通过www服务访问元搜索引擎,向Web服务器提交检索式。当Web服务器收到查询请求时,
先访问结果数据库,查看近期是否有相同的检索,如果有则直接返回保存的结果,完成查询;如果没有
相同的检索,就分析检索式并转化成与所要查找各搜索引擎相应的检索式格式,然后送至Web处理接口
模块。
Web处理接ISl通过并行的方式同时查询多个搜索引擎,把所有的结果集中到—起。根据各搜索引擎
的重要性,以及所得结果的相关度,对结果进行抽取并排序,生成最终结果返回给用户。同时,把结果
存到自己的数据库里,以备下次查询参考使用。
3.2基于内容的搜索
基于XML文档的搜索引擎属于基于内容的搜索引擎,它与基于文本的搜索引擎有很大的不同。前
者不但要考虑关键词的匹配而且还有兼顾语义上是否—致,后者则简单的多,只要考虑字符的匹配与否
1707
就可以了。所以,问题的关键是如何处理语义搜索。
有效的办法是维护—个元素索引表和一个标签索引表。
元素,搜索引擎中的词,也就是用户提交给搜索引擎的关键词。元素索引表中记录的是每个元素以
及包含该元素的XML文档和标签信息。元素,搜索引擎中的词,也就是用户提交给搜索引擎的关键词。
该标签时与该元素最近的标签,即父标签。
标签索引表结构用带头的顺序表组织,具体结构如图2所示:
图2标签索引表结构图
为结点包括两个域,tag域记录标签,liIll【域记录其父结点的位置,以便在查找过程中能从一个标签逆向
返回到根结点。这样当搜索相关数据时,不仅可以和元素匹配,而且可以与标签相匹配,达到了语义的
效果。
3.3用户提交搜索时标签的确定
由于XML标签定义的任意性,任何人可以定义自己的标签,同样的标签可以表示不同的意义。用
户在提交搜索时,如果对XML文档的结构不了解,很难准确的提交所要搜索的标签,也就很难达到准
确的语义搜索。在实际中,大多数用户基本上不可能了解将要搜索出的XML文档的结构,确定准确的
标签也就无从谈起。
采用两级搜索方式,首先假设XML文档都符合一定的瑚[D,其实这也是使XML文档有效,具有
可读性的基本条件。
第一级
文档评论(0)