基于Deep Web数据查询接口抽取与集成.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Deep Web数据查询接口抽取与集成

基于Deep Web数据查询接口抽取与集成   [摘要]针对Deep web数据集成系统架构,对其中关键的接口的抽取与集成提出思路。   [关键词]Deep web 查询接口 抽取 集成   中图分类号:TP3文献标识码:A 文章编号:1671-7597(2008)1210040-01      根据数据的分布状况,Web数据可以分为:Surface Web和Deep Web。Surface Web是指可以通过超链接或者传统网页搜索引擎访问到的网页、文件等资源,它一般以静态网页构成为主;而Deep Web可以简单的概述为那些难以通过普通搜索引擎发现的资源的集合。主要包括存储在Web数据库里大量资源,需要通过动态网页技术才能访问。Deep Web后台的数据库一般为结构化的关系数据库,质量都比较高,因此通过DeepWeb的数据集成来更有效地利用Deep Web丰富的数据是十分有意义的。   在Deep web数据集成系统中,主要有以下3个步骤:(1)发现Deep Web;(2)查询接口抽取与集成;(3)结果抽取与整合。其中查询接口抽取与集成是关键步骤,本文就此提出思路。   用户通过查询接口来获得Deep Web的数据信息,一个查询接口物理上通常包括一些HTML元素,比如:Textbox,Button,Checkbox,Radio等等,还包括一些有语义的文本标签,而在逻辑上,一个查询接口包括了很多的逻辑属性值,如“淘宝”查洵接口就包括了“关键”、“类别”等属性;而每个不同的逻辑属性又包括了一些特定的元数据信息,比如:属性名称、数据类型、数据范围、数据单位、默认值、查询条件等,如“拍拍网”的“价格范围”属性就包括了这些元数据信息:名称--价格,数据类型--货币,单位--元,查询条件--最大与最小范围查询等等。我们把接口的逻辑形式称为接口模式。   从不同的接口模式中抽取出特定的逻辑属性,并根据相关性把他们集合成为一个通用的逻辑属性,这是查询接口抽取的主要目的,而通过对通用逻辑属性的集成,将得到一个统一的查询接口。      一、查询接口的抽取      一个接口模式的逻辑属性可以用一组特定的元数据信息来确定,而这些信息都是分散在接口的物理元素中的,因此有必要通过搜寻这些元数据信息,对某个逻辑属性进行确切的定义,从而准确地表达这个接口模式。   在抽取查询接口的过程中,引入了接口表达式的概念,通过对接口表达式的改进,可以很方便地完成对接口模式的抽取。如淘宝网查洵接口的接口表达式为:I{TE?OT?OTEEEE?OTE?OTE?OTE?OBB}其中:“T”(Text-label)代表接口中的文字标签,“E”(Element)代表接口中的HTML元素,但不包括按钮,按钮用“B”(Button)来表示,“?O”表示表格的一行或者换行符号。   接口表达式可以对网络中大部分查洵接口做出形象的描述,它对我们下一步接口抽取起着重要的作用。通过对接口表达式的分析抽取,可以得到该接口模式的逻辑属性,下面给出了2种抽取方法:   (一)基于T(文本标签)的抽取方法(Text-labelbased,简称TB)   对于一个接口模式,找到其中的所有文本标签并逐个进行如下分析:在某个标签T1的同一行或者下面临近行中往下找寻与之相邻的HTML元素(E),直到另一个文本标签T2为止;把这些E与T1合并成一组进行启发式的分析(比如比较文本标签与HTML元素的名称),将不匹配的E抛弃;如果最终没有任何E与T1匹配,那么T1将被抛弃,否则T1和与其相匹配的{El1,El2,El3#8943;}构成一个逻辑属性A1。   (二)基于E(HTML元素)的抽取方法(Element based,简称EB)   该方法与上述方法刚好相反,首先找到E1,然后往上找寻T,进行启发式分析,如果匹配则停止找寻并将他们合并逻辑属性Al,否则继续往上找寻T,直到另一个E2。   通过以上方法对接口的逻辑属性进行抽取后,通过进一步分析,可以把一个逻辑属性表示为:A[Name,Type,Range,Layout#8943;],其元信息包括属性名称、数据类型、值域、排列位置等等。于是,一个查询接口经过抽取和分析后可以形象地表示为:I{A1,A2,A3,#8943;,An},Ai代表接口的若干逻辑属性。      二、查询接口的集成      对于查询接口的集成有2个步骤:首先将不同接口中的特定逻辑属性集成为通用的逻辑属性;然后将这些通用的逻辑属性集成为一个统一的接口。   在不同的查询接口中,语义相似或相同的属性可能会被表示成不同的模式,比如不同的文字标签,不同的HTML元素格式,不同的排列布局等等。为了得到通用属性,本文提出了2种集成的思路:(

文档评论(0)

bokegood + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档