2011年第4次课-Deep Web 集成和查询new课件.pptVIP

  • 3
  • 0
  • 约2.12千字
  • 约 93页
  • 2017-08-20 发布于河南
  • 举报

2011年第4次课-Deep Web 集成和查询new课件.ppt

2011年第4次课-Deep Web 集成和查询new课件

第 4 章 Deep Web 集成查询研究;主要内容;主要内容;深层网络基本概念;深层网络基本概念; 当前Internet存在大量的页面是由后台数据库动态产生的, 这些页面不能通过静态链接直接获取,只能通过填写表单提交 查询方式来获取。传统的蜘蛛程序(Crawler)由于技术和其它 原因,不能抓取这些页面,导致这部分信息对用户是隐藏、不 可见的,称为Deep Web(深层网络) ; 对Deep Web的研究具有重要意义,Deep Web中包含的信息 是网络蜘蛛程序能够访问的Surface Web的500倍,Deep Web中蕴 涵的信息比Source Web质量更高、更专业,Deep Web数据量的增 长速度远大于Surface Web,Deep Web上95%的信息是可以公开访 问的,Deep Web中大量的信息是结构化的数据信息。因此有效地 利用Deep Web中丰富的信息,向用户提供针对Deep Web中多数据 源一致的查询接口,即研究Deep Web数据集成方法成为当前重要 的方向之一。 ; 我们对航空订票、图书销售、汽车销售等行业226个数据源 进行比较分析,发现这些数据源的数据主要以三种形式存在: 纯数据库数据、以XML形式存在的数据、通过网页获取的数据 库数据。其中通过网页获取的关系数据库数据150个(也称为深 层网络数据,

文档评论(0)

1亿VIP精品文档

相关文档