- 1
- 0
- 约4.11千字
- 约 31页
- 2019-07-03 发布于天津
- 举报
一种数据驱动的自动生成与维护方法王仲远艾静孟小峰中国人民大学实验室大纲背景介绍研究动机数据驱动的自动生成与维护方法实验总结系统介绍介绍目前可访问的网页超过目前主流搜索引擎只索引了超过的页面的划分按照数据深浅程度通过超链接可以被传统搜索引擎索引到的页面的集合无法被传统的搜索引擎索引到的那部分内容的主要特点规模年月数据库的数量超过万个年统计数据库超过万个年数据库超过万个是的多倍结构化程度主题分布覆盖了现实世界的各个主题商业新闻媒体娱乐自治性和异质性研究动机原有的数据抽取方法基于树分析基于视觉的抽取原
一种数据驱动的Wrapper自动生成与维护方法 王仲远 艾静 孟小峰 中国人民大学WAMDM实验室 大纲 背景介绍研究动机 数据驱动的Wrapper自动生成与维护方法 实验 总结 系统介绍 Deep Web 介绍 World Wide Web [CIDR07] 目前可访问的网页超过550 billion 目前主流搜索引擎只索引了超过1billion的页面 Web的划分(按照数据“深浅”程度) Surface Web -通过超链接可以被传统搜索引擎索引到的页面的集合。 Deep Web -无法被传统的搜索引擎索引到的那部分内容。 Deep Web的主要特点 规模 2001年7月BrightP:Web数据库的数量超过4万个 2004年UIUC统计:Web数据库超过45万个 2007年CIDR:Web数据库超过2500万个 是Surface Web的500多倍 结构化程度 75% 主题分布 覆盖了现实世界的各个主题(商业、新闻媒体、娱乐…… ) 自治性和异质性 研究动机 原有的数据抽取方法 基于DOM树分析 Y. Zhai, B. Liu. Web data extraction based on partial tree alignment. In: WWW, 2005. 76-85. D. Hu and X. Meng: Automatically ex
您可能关注的文档
最近下载
- 2025至2030中国防护口罩行业调研及市场前景预测评估报告.docx VIP
- 《中华人民共和国危险化学品安全法》解读及宣传培训.pptx VIP
- 小儿脑瘫的康复.ppt VIP
- 中职数学高考复习专题5.1 弧度制与任意角的三角函数(练透)(教师版).docx VIP
- 协税员笔试题目及答案.doc VIP
- 2024届河南省五市高三下学期第一次联考(一模)文综历史试题(解析版).docx VIP
- 吴家龙弹性力学课后习题答案.docx VIP
- 不动产登记职业技能竞赛试题一.docx VIP
- SDFP6000消防设备电源监控系统.PDF VIP
- 2026年西藏高考文科综合试题解析及答案.docx VIP
原创力文档

文档评论(0)