一种数据驱动的Wrapper自动生成与维护方法-rucwamdm-中国人民.PPT

下载文档 降价啦

0
0
约4.11千字
约 31页
2019-05-18 发布于天津
举报
版权申诉
保障服务

一种数据驱动的Wrapper自动生成与维护方法-rucwamdm-中国人民.PPT

1、本文档共31页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

一种数据驱动的Wrapper自动生成与维护方法王仲远艾静孟小峰中国人民大学WAMDM实验室大纲背景介绍研究动机数据驱动的Wrapper自动生成与维护方法实验总结系统介绍 Deep Web 介绍 World Wide Web [CIDR07] 目前可访问的网页超过550 billion 目前主流搜索引擎只索引了超过1billion的页面 Web的划分(按照数据“深浅”程度) Surface Web -通过超链接可以被传统搜索引擎索引到的页面的集合。 Deep Web -无法被传统的搜索引擎索引到的那部分内容。 Deep Web的主要特点规模 2001年7月BrightP：Web数据库的数量超过4万个 2004年UIUC统计：Web数据库超过45万个 2007年CIDR：Web数据库超过2500万个是Surface Web的500多倍结构化程度 75% 主题分布覆盖了现实世界的各个主题(商业、新闻媒体、娱乐…… ) 自治性和异质性研究动机原有的数据抽取方法基于DOM树分析 Y. Zhai, B. Liu. Web data extraction based on partial tree alignment. In: WWW, 2005. 76-85. D. Hu and X. Meng: Automatically extracting data from data-rich web pages. In: DASFAA 2005, pages828-839, Beijing, China, April 17-20, 2005. Lecture Notes in Computer Science 3453, Springer. 基于视觉的抽取 H. Zhao, W. Meng, Z. Wu, V. Raghavan, C. T. Yu. Fully automatic wrapper generation for search engines. In WWW, pages 66-75, 2005. K. Simon, G. Lausen. ViPER: Augmenting Automatic Information Extraction with Visual Perceptions. In CIKM, pages 381-388, 2005. W. liu, X. Meng, W. Meng. Vision-based Web Data Records Extraction. In: Proceedings of the 9th SIGMOD International Workshop on Web and Databases (SIGMOD-WebDB2006), June 30, 2006 原有抽取方法的缺陷（1） [SL05] K. Simon, G. Lausen. ViPER: Augmenting Automatic Information Extraction with Visual Perceptions. In CIKM, pages 381-388, 2005. ViNTs(MDR-2) [CH07] S.-L. Chuang, K. C.-C. Chang, and C. Zhai. Context-Aware Wrapping: Synchronized Data Extraction. In: VLDB 2007. 699-710 原有抽取方法的缺陷（2）特征驱动的方法：严重依赖于网页的结构及特征准确率波动现象大纲背景介绍研究动机数据驱动的Wrapper自动生成与维护方法实验总结系统介绍 Deep Web查询结果页面查询结果列表（list page）查询结果记录的详细页面（detailed page）两个观察在一系列的匹配页面对上： (1) 若语义块匹配,则源语义块上的数据值与目标语义块上的数据值大部分具有较高相似度值; (2) 若语义块不匹配,源语义块上的数据值与目标语义块上的数据值大部分具有较低的相似度值. 不同网站同一时期的页面同一网站不同时期的页面 Wrapper生成与维护过程 Wrapper生成扩散 Wrapper维护基于XPath的Schema-Guided数据抽取方法基于相似度值的语义块匹配语义块相似度值的迭代计算大纲背景介绍研究动机数据驱动的Wrapper自动生成与维护方法实验总结系统介绍在不同领域上的有效性实验在不同领域上的有效性实验（2）语义块匹配的收敛速度语义块匹配的收敛速度语义块匹配的收敛速度语义块匹配的收敛速度大纲背景介绍研究