- 0
- 0
- 约4.11千字
- 约 31页
- 2018-05-18 发布于江苏
- 举报
一种数据驱动的Wrapper自动生成与维护方法8
一种数据驱动的Wrapper自动生成与维护方法 王仲远 艾静 孟小峰 中国人民大学WAMDM实验室 大纲 背景介绍研究动机 数据驱动的Wrapper自动生成与维护方法 实验 总结 系统介绍 Deep Web 介绍 World Wide Web [CIDR07] 目前可访问的网页超过550 billion 目前主流搜索引擎只索引了超过1billion的页面 Web的划分(按照数据“深浅”程度) Surface Web -通过超链接可以被传统搜索引擎索引到的页面的集合。 Deep Web -无法被传统的搜索引擎索引到的那部分内容。 Deep Web的主要特点 规模 2001年7月BrightP:Web数据库的数量超过4万个 2004年UIUC统计:Web数据库超过45万个 2007年CIDR:Web数据库超过2500万个 是Surface Web的500多倍 结构化程度 75% 主题分布 覆盖了现实世界的各个主题(商业、新闻媒体、娱乐…… ) 自治性和异质性 研究动机 原有的数据抽取方法 基于DOM树分析 Y. Zhai, B. Liu. Web data extraction based on partial tree alignment. In: WWW, 2005. 76-85. D. Hu and X. Meng: Automatically ex
您可能关注的文档
- WORKGROUP无法访问,您可能没有权限使用网络资源—网上邻居无法互相访问解决办法4.docx
- WS848系列9C型用户使用说明书1.pdf
- XX污水处理厂土建工程施工组织设计.pdf
- Young-Jupiters-are-Faint:New-Models-of-the-Early-Evolution-of-Giant-Planets.pdf
- ZKY-3型闸门开度测控仪1.doc
- §2.电场电场强度1.ppt
- §3.2 准静态过程的功 热力学第一定律.ppt
- §7-1生长素(auxin,IAA)§7-2赤霉素(gibberellin,GA)§7-1.ppt
- ·一个人应养成信赖自己的习惯,即使在最危急的时候,也要4.doc
- ——课堂教学四变三结合2.ppt
- 统编版小学五年级语文下册课件《语文园地六》.pptx
- 9.3 大气压强 课件-2025-2026学年人教版物理八年级下学期.pptx
- 10.《苏武传》第二课时 课件 2026-2027学年统编版高二语文选择性必修中册.pptx
- 统编版小学五年级语文下册课件《第二单元习作:写读后感》.pptx
- 2025-2026学年初二英语下学期期中模拟练习含答案.docx
- 2024-2025学年广东省广州市八年级下学期中段生物检测含答案.docx
- 2024-2025学年广东广州天河中学八年级下学期期中数学试题含答案.docx
- 冀教版八年级数学上《第十二章分式和分式方程》单元测试含答案.doc
- 华东师大八年级数学下《第18章平行四边形》整合提升试卷.doc
- 危重病人生命体征监测.pptx
原创力文档

文档评论(0)