- 2
- 0
- 约4.11千字
- 约 31页
- 2018-09-21 发布于湖北
- 举报
一种数据驱动的Wrapper自动生成与维护方法 王仲远 艾静 孟小峰 中国人民大学WAMDM实验室 大纲 背景介绍研究动机 数据驱动的Wrapper自动生成与维护方法 实验 总结 系统介绍 Deep Web 介绍 World Wide Web [CIDR07] 目前可访问的网页超过550 billion 目前主流搜索引擎只索引了超过1billion的页面 Web的划分(按照数据“深浅”程度) Surface Web -通过超链接可以被传统搜索引擎索引到的页面的集合。 Deep Web -无法被传统的搜索引擎索引到的那部分内容。 Deep Web的主要特点 规模 2001年7月BrightP:Web数据库的数量超过4万个 2004年UIUC统计:Web数据库超过45万个 2007年CIDR:Web数据库超过2500万个 是Surface Web的500多倍 结构化程度 75% 主题分布 覆盖了现实世界的各个主题(商业、新闻媒体、娱乐…… ) 自治性和异质性 研究动机 原有的数据抽取方法 基于DOM树分析 Y. Zhai, B. Liu. Web data extraction based on partial tree alignment. In: WWW, 2005. 76-85. D. Hu and X. Meng: Automatically ex
您可能关注的文档
- 校本培训活动记录第5)次.doc
- 探索「建构学习行为特质」对线上学习成效影响.PDF
- 新课标卷Ⅰ)2014年普通高等学校招生全国统一考试.doc
- 体育学院校本部)实验教学中心仪器设备.PDF
- 天然气管道运输定价成本监审办法试行).PDF
- 药物临床使用注意事项心血管).ppt
- 通识教育课程设置和学分安排.PDF
- 文科综合第四模拟).PDF
- 沃克森北京)国际资产评估有限公司.PDF
- 浙江东源实业有限公司西龙服装厂办公楼更换吊顶和墙体粉刷.doc
- 2026年《民警述职述报告(5篇)》.docx
- 2026年《我的心爱之物优秀作文素材【优秀14篇】》.docx
- 2026年《坚持学习的座右铭【经典19篇】》.docx
- 《硬质合金高温氧化性能试验方法》编制说明.pdf
- GBT《碲化锌靶材》编制说明.docx
- DB13_T 6300-2026-高速公路分布式光伏发电工程技术规范.pdf
- DB13_T 6305-2026-高速公路准全天候通行一般要求(最终上报版).pdf
- DB13_T 6313-2026-华北落叶松目标树近自然培育技术规程.pdf
- 《团体标准光伏硅单晶用石英坩埚内表面金属杂质含量的测定 电感耦合等离子质谱法》.docx
- 《 镍化学分析方法 第8部分 碳、硫含量的测定 高频感应炉燃烧红外吸收法 预审稿 编制说明》.docx
原创力文档

文档评论(0)