- 2
- 0
- 约4.11千字
- 约 31页
- 2018-10-15 发布于江苏
- 举报
一种数据驱动Wrapper自动生成与维护方法
一种数据驱动的Wrapper自动生成与维护方法 王仲远 艾静 孟小峰 中国人民大学WAMDM实验室 大纲 背景介绍研究动机 数据驱动的Wrapper自动生成与维护方法 实验 总结 系统介绍 Deep Web 介绍 World Wide Web [CIDR07] 目前可访问的网页超过550 billion 目前主流搜索引擎只索引了超过1billion的页面 Web的划分(按照数据“深浅”程度) Surface Web -通过超链接可以被传统搜索引擎索引到的页面的集合。 Deep Web -无法被传统的搜索引擎索引到的那部分内容。 Deep Web的主要特点 规模 2001年7月BrightP:Web数据库的数量超过4万个 2004年UIUC统计:Web数据库超过45万个 2007年CIDR:Web数据库超过2500万个 是Surface Web的500多倍 结构化程度 75% 主题分布 覆盖了现实世界的各个主题(商业、新闻媒体、娱乐…… ) 自治性和异质性 研究动机 原有的数据抽取方法 基于DOM树分析 Y. Zhai, B. Liu. Web data extraction based on partial tree alignment. In: WWW, 2005. 76-85. D. Hu and X. Meng: Automatically ex
原创力文档

文档评论(0)