Deep Web资源集成研究.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
维普资讯 科技信息 0计算机与信息技术0 SCIENCE&TECHNOLOGYINFORMATION 2007年 第35期 DeepWeb资源集成研究 周 旭 赵 耀 刘海博 (河北大学数学与计算机学院 河北 保定 071002) 摘【 要】面对越来越多的在线数据库,DeepWeb得到人们的广泛重视,DeepWeb资源集成是DeepWeb研究的重点内容。本文对一仓 典型的DeepWeb资源集成原型系统…WISE Integrator进行了系统的分析和介绍。该系统对查询接 口的描述、接 口抽取和接 口整合等 Deep Web资源集成的主要 问题进行 了深入的研 究,提 出一些切实可行的方法,对于该领域的研 究人员具有重要的参考价值 。 关【键词】DeepWeb;查询接 口;抽取;集成 O.引言 相对于属性的标签,组成属性的每一个元素也可能有它 自己的标 随着计算机网络的快速发展和计算机应用的广泛普及 ,网上的 签 。这些标签也可能帮助确认元素的语义信息。当一个属性有多个元 DeepWeb站点越来越多。文献 Jf古计网络上大约有4.3万到9.6万个 素时,他们 一般具备4种基本关系 : DeepWeb站点,有大约 7500TB的数据 ,是 SurfaceWeb的500倍。文 范围类型:有两个或者更多元素被用来表示属性的范围语义 。 献 进一步指出:DeepWeb信息资源仍在迅速增长,从 2000年到 部分类型 :即部分关系。 2004年增长了3—7倍:内容分布于多种不同的主题领域;目前的搜索 分组类型 :有时多个checkbox被用来产生一个语义概念 。 引擎已经覆盖 DeepWeb大约 1,3的页面。这表明DeepWeb资源发挥 约束类型:一个元素可 以约束另一个元素。 着越来越大的作用,对DeepWeb的研究得到人们的广泛关注 。 由文献日概括来讲 .在保证接 口表达的完整性的基础上,这个模型 DeepWeb数据库…般都是通过查询接 口向用户提供信息 。但是 包括了接 口的语义信息,如元素名和元素类型。F=(S,fA。,A,… , 当用户查询时却发现很不方便 ,相同领域的大量 DeepWeb数据库各 A,),C),其中,s是站点信息;(A。,A。,…,A,)是接 口属性的序列;C是表 自独立 .如果用户想要 比较全面地查询某领域的信息.需要费时费力 单的约束 。每 一个 A。表示为 :(L,P,DT,DF,VT,U…R (EJ,EJ+1,…, 地逐个查询每个相关的数据库 。例如,当一一个求职者想要在互联网上 EKl,Ca),其 中L为属性标签 ;P为布局顺序位置 ;DT为域类型;DF为 查询是否有 自己合适的工作时,面对着大量的类似求职网站,普通用 默认值 ;V为值类型;u为单位 ;R为域元素关系类型;fEJ,EJ十】,…,El 户不可能同时记住大量网址,而且逐个网站的查询也很浪费时间。如 为域元素列表 ;C为属性约束。每一个 E.表示为:(L,N…FV,DV),其 果能够把某个领域内众多的相关DeepWeb站点进行集成 .为用户提 中,Le为元素标签;N为名字;Fe为格式;v为值集合;DV为默认值 。 供一个统一的查询接 口,为用户提供统一的查询结果,将会受到用户 2.接 口抽取器 的欢迎 。DeepWeb资源集成是 目前 DeepWeb研究的重点内容 。 通过扫描 HTML源文件 ,查询接 口上的语义相关的文本标签和元 对于 DeepWeb资源集成研究,一个在 国内外具有领先水平的原 素描述为逻辑属性 。通过分组相关联 的文本和元素可以确定属性。同 型系统是 WISE—Integratort3,51系统 ,该系统在分析相 同领域的一组查 时抽取器除了文本和元素信息,还抽取大量重要的元信息。例如, 询接 口的基础上,自动创建一个统一的查询接 口,并且发送子查询到 Publicationdate暗指属性是一个 日期数据类型 ,且

文档评论(0)

kuailexingkong + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档