基于Deep Web数据查询接口抽取与集成.docVIP

下载本文档

2
0
约2.96千字
约 7页
2018-08-28 发布于福建
举报
版权申诉

基于Deep Web数据查询接口抽取与集成.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Deep Web数据查询接口抽取与集成

基于Deep Web数据查询接口抽取与集成　　[摘要]针对Deep web数据集成系统架构，对其中关键的接口的抽取与集成提出思路。　　[关键词]Deep web 查询接口抽取集成　　中图分类号：TP3文献标识码：A 文章编号：1671-7597(2008)1210040-01 　　　　根据数据的分布状况，Web数据可以分为：Surface Web和Deep Web。Surface Web是指可以通过超链接或者传统网页搜索引擎访问到的网页、文件等资源，它一般以静态网页构成为主；而Deep Web可以简单的概述为那些难以通过普通搜索引擎发现的资源的集合。主要包括存储在Web数据库里大量资源，需要通过动态网页技术才能访问。Deep Web后台的数据库一般为结构化的关系数据库，质量都比较高，因此通过DeepWeb的数据集成来更有效地利用Deep Web丰富的数据是十分有意义的。　　在Deep web数据集成系统中，主要有以下3个步骤：(1)发现Deep Web；(2)查询接口抽取与集成；(3)结果抽取与整合。其中查询接口抽取与集成是关键步骤，本文就此提出思路。　　用户通过查询接口来获得Deep Web的数据信息，一个查询接口物理上通常包括一些HTML元素，比如：Textbox，Button，Checkbox，Radio等等，还包括一些有语义的文本标签，而在逻辑上，一个查询接口包括了很多的逻辑属性值，如“淘宝”查洵接口就包括了“关键”、“类别”等属性；而每个不同的逻辑属性又包括了一些特定的元数据信息，比如：属性名称、数据类型、数据范围、数据单位、默认值、查询条件等，如“拍拍网”的“价格范围”属性就包括了这些元数据信息：名称--价格，数据类型--货币，单位--元，查询条件--最大与最小范围查询等等。我们把接口的逻辑形式称为接口模式。　　从不同的接口模式中抽取出特定的逻辑属性，并根据相关性把他们集合成为一个通用的逻辑属性，这是查询接口抽取的主要目的，而通过对通用逻辑属性的集成，将得到一个统一的查询接口。　　　　一、查询接口的抽取　　　　一个接口模式的逻辑属性可以用一组特定的元数据信息来确定，而这些信息都是分散在接口的物理元素中的，因此有必要通过搜寻这些元数据信息，对某个逻辑属性进行确切的定义，从而准确地表达这个接口模式。　　在抽取查询接口的过程中，引入了接口表达式的概念，通过对接口表达式的改进，可以很方便地完成对接口模式的抽取。如淘宝网查洵接口的接口表达式为：I{TE?OT?OTEEEE?OTE?OTE?OTE?OBB}其中：“T”(Text-label)代表接口中的文字标签，“E”(Element)代表接口中的HTML元素，但不包括按钮，按钮用“B”(Button)来表示，“?O”表示表格的一行或者换行符号。　　接口表达式可以对网络中大部分查洵接口做出形象的描述，它对我们下一步接口抽取起着重要的作用。通过对接口表达式的分析抽取，可以得到该接口模式的逻辑属性，下面给出了2种抽取方法：　　（一）基于T(文本标签)的抽取方法(Text-labelbased，简称TB) 　　对于一个接口模式，找到其中的所有文本标签并逐个进行如下分析：在某个标签T1的同一行或者下面临近行中往下找寻与之相邻的HTML元素(E)，直到另一个文本标签T2为止；把这些E与T1合并成一组进行启发式的分析(比如比较文本标签与HTML元素的名称)，将不匹配的E抛弃；如果最终没有任何E与T1匹配，那么T1将被抛弃，否则T1和与其相匹配的{El1，El2，El3#8943;}构成一个逻辑属性A1。　　（二）基于E(HTML元素)的抽取方法(Element based，简称EB) 　　该方法与上述方法刚好相反，首先找到E1，然后往上找寻T，进行启发式分析，如果匹配则停止找寻并将他们合并逻辑属性Al，否则继续往上找寻T，直到另一个E2。　　通过以上方法对接口的逻辑属性进行抽取后，通过进一步分析，可以把一个逻辑属性表示为：A[Name，Type，Range，Layout#8943;]，其元信息包括属性名称、数据类型、值域、排列位置等等。于是，一个查询接口经过抽取和分析后可以形象地表示为：I{A1，A2，A3，#8943;，An}，Ai代表接口的若干逻辑属性。　　　　二、查询接口的集成　　　　对于查询接口的集成有2个步骤：首先将不同接口中的特定逻辑属性集成为通用的逻辑属性；然后将这些通用的逻辑属性集成为一个统一的接口。　　在不同的查询接口中，语义相似或相同的属性可能会被表示成不同的模式，比如不同的文字标签，不同的HTML元素格式，不同的排列布局等等。为了得到通用属性，本文提出了2种集成的思路：(