一种数据驱动的Wrapper自动生成与维护方法-rucwamdm-中国人民.pptVIP

  • 1
  • 0
  • 约4.11千字
  • 约 31页
  • 2019-07-03 发布于天津
  • 举报

一种数据驱动的Wrapper自动生成与维护方法-rucwamdm-中国人民.ppt

一种数据驱动的自动生成与维护方法王仲远艾静孟小峰中国人民大学实验室大纲背景介绍研究动机数据驱动的自动生成与维护方法实验总结系统介绍介绍目前可访问的网页超过目前主流搜索引擎只索引了超过的页面的划分按照数据深浅程度通过超链接可以被传统搜索引擎索引到的页面的集合无法被传统的搜索引擎索引到的那部分内容的主要特点规模年月数据库的数量超过万个年统计数据库超过万个年数据库超过万个是的多倍结构化程度主题分布覆盖了现实世界的各个主题商业新闻媒体娱乐自治性和异质性研究动机原有的数据抽取方法基于树分析基于视觉的抽取原

一种数据驱动的Wrapper自动生成与维护方法 王仲远 艾静 孟小峰 中国人民大学WAMDM实验室 大纲 背景介绍研究动机 数据驱动的Wrapper自动生成与维护方法 实验 总结 系统介绍 Deep Web 介绍 World Wide Web [CIDR07] 目前可访问的网页超过550 billion 目前主流搜索引擎只索引了超过1billion的页面 Web的划分(按照数据“深浅”程度) Surface Web -通过超链接可以被传统搜索引擎索引到的页面的集合。 Deep Web -无法被传统的搜索引擎索引到的那部分内容。 Deep Web的主要特点 规模 2001年7月BrightP:Web数据库的数量超过4万个 2004年UIUC统计:Web数据库超过45万个 2007年CIDR:Web数据库超过2500万个 是Surface Web的500多倍 结构化程度 75% 主题分布 覆盖了现实世界的各个主题(商业、新闻媒体、娱乐…… ) 自治性和异质性 研究动机 原有的数据抽取方法 基于DOM树分析 Y. Zhai, B. Liu. Web data extraction based on partial tree alignment. In: WWW, 2005. 76-85. D. Hu and X. Meng: Automatically ex

文档评论(0)

1亿VIP精品文档

相关文档