十章数据库集成系统.pptxVIP

  1. 1、本文档共90页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

第十章Web数据库集成系统;动机;结构化数据---丰富,然而却很少被利用!;Web信息分类;目前,有关Web的挑战是“双重的”;以前Web上:

搜索通常是基于爬虫和索引(crawlandindex);当前Web上:

搜索的最终目标是实现数据集成;DeepWeb数据集成案例;购买一本书?;DeepWeb数据集成关键问题;国内外研究现状-1;国内外研究现状-2;国内外研究现状-3;国内外研究现状-4;国内外研究现状-5;国内外研究现状-6;一个DeepWeb数据库集成系统;18;19;20;21;接口模式抽取;接口模式抽取;接口模式抽取;接口模式抽取;接口模式抽取;QE-Extractor模型;28;29;30;31;32;;34;35;;数据源选择;HashTable;数据源选择;40;结果数据抽取;基于节点聚类的抽取方法

基本方法

查询结果页面DOM树建模

识别数据区域与查询结果记录;复杂结构页面记录识别;;结果数据抽取包装器;自底向上的抽取方法;;嵌套结构;;;对比项;52;查询松弛;现有的查询松弛方法;现有的查询松弛方法;问题2

需要删减查询词的举例

查询q:书名=数据库系统实现,作者=王珊;查询松弛思想;查询松弛执行策略详述;查询松弛执行策略详述;查询松弛执行策略详述;值松弛中的扩展查询词方法;值松弛中的删减查询词方法;查询过程中的结果评价方法;64;重复记录识别;;重复记录识别-实体关联知识构建;多相似度估算器;多相似度估算器;重复实体记录的识别策略;71;数据清洗-问题的提出;基本思想

利用数据质量高的记录修复数据质量低的记录

解决方案

分析全局模式中属性间函数依赖关系。

查询结果记录中基于模式属性的实体识别。

数据质量的评估。;集成数据清洗流程;全局模式分析阶段;数据源分析;集成数据记录修复算法;增量式集成数据清洗算法;数据抽取示例;跨领域的DeepWeb数据集成;跨领域DeepWeb数据集成-解决思路;自适应跨领域查询系统框架;领域关联关系发现;;;;;查询路径推荐;父节点数据源质量,简称QF

子节点数据源质量,简称QC

入链接个数,又称入度

出链接个数,又称出度

数据源间相关度,又称Relativity

;

文档评论(0)

159****9610 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:6044052142000020

1亿VIP精品文档

相关文档