- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种数据驱动的Wrapper自动生成与维护方法 王仲远 艾静 孟小峰 中国人民大学WAMDM实验室 大纲 背景介绍研究动机 数据驱动的Wrapper自动生成与维护方法 实验 总结 系统介绍 Deep Web 介绍 World Wide Web [CIDR07] 目前可访问的网页超过550 billion 目前主流搜索引擎只索引了超过1billion的页面 Web的划分(按照数据“深浅”程度) Surface Web -通过超链接可以被传统搜索引擎索引到的页面的集合。 Deep Web -无法被传统的搜索引擎索引到的那部分内容。 Deep Web的主要特点 规模 2001年7月BrightP:Web数据库的数量超过4万个 2004年UIUC统计:Web数据库超过45万个 2007年CIDR:Web数据库超过2500万个 是Surface Web的500多倍 结构化程度 75% 主题分布 覆盖了现实世界的各个主题(商业、新闻媒体、娱乐…… ) 自治性和异质性 研究动机 原有的数据抽取方法 基于DOM树分析 Y. Zhai, B. Liu. Web data extraction based on partial tree alignment. In: WWW, 2005. 76-85. D. Hu and X. Meng: Automatically extracting data from data-rich web pages. In: DASFAA 2005, pages828-839, Beijing, China, April 17-20, 2005. Lecture Notes in Computer Science 3453, Springer. 基于视觉的抽取 H. Zhao, W. Meng, Z. Wu, V. Raghavan, C. T. Yu. Fully automatic wrapper generation for search engines. In WWW, pages 66-75, 2005. K. Simon, G. Lausen. ViPER: Augmenting Automatic Information Extraction with Visual Perceptions. In CIKM, pages 381-388, 2005. W. liu, X. Meng, W. Meng. Vision-based Web Data Records Extraction. In: Proceedings of the 9th SIGMOD International Workshop on Web and Databases (SIGMOD-WebDB2006), June 30, 2006 原有抽取方法的缺陷(1) [SL05] K. Simon, G. Lausen. ViPER: Augmenting Automatic Information Extraction with Visual Perceptions. In CIKM, pages 381-388, 2005. ViNTs(MDR-2) [CH07] S.-L. Chuang, K. C.-C. Chang, and C. Zhai. Context-Aware Wrapping: Synchronized Data Extraction. In: VLDB 2007. 699-710 原有抽取方法的缺陷(2) 特征驱动的方法:严重依赖于网页的结构及特征 准确率波动现象 大纲 背景介绍研究动机 数据驱动的Wrapper自动生成与维护方法 实验 总结 系统介绍 Deep Web查询结果页面 查询结果列表(list page) 查询结果记录的详细页面(detailed page) 两个观察 在一系列的匹配页面对上: (1) 若语义块匹配,则源语义块上的数据值与目标语义块上的数据值大部分具有较高相似度值; (2) 若语义块不匹配,源语义块上的数据值与目标语义块上的数据值大部分具有较低的相似度值. 不同网站同一时期的页面 同一网站不同时期的页面 Wrapper生成与维护过程 Wrapper生成扩散 Wrapper维护 基于XPath的Schema-Guided数据抽取方法 基于相似度值的语义块匹配 语义块相似度值的迭代计算 大纲 背景介绍研究动机 数据驱动的Wrapper自动生成与维护方法 实验 总结 系统介绍 在不同领域上的有效性实验 在不同领域上的有效性实验(2) 语义块匹配的收敛速度 语义块匹配的收敛速度 语义块匹配的收敛速度 语义块匹配的收敛速度 大纲 背景介绍研究
您可能关注的文档
- 文秘管理与写作38555.ppt
- 文献管理使用指南44558.ppt
- 文献管理使用指南45109.ppt
- 文献信息管理软件Zotero使用指南.ppt
- 我对电子政务若干问题的理解.ppt
- 我国的基本经济制度41355.ppt
- 我国债务负担率及债务依存度的 分析 第四节 国债市场及其.ppt
- 物联网工程综合实践:Java Web开发1.ppt
- 物流网络设计.ppt
- 物流信息化挑战与区域物流电子商务eHub平台建设.ppt
- 2025四川南充市公路管理局南充市水务局遴选3人笔试备考题库附答案解析.docx
- 2025年清水河县事业单位联考招聘考试历年真题完美版.docx
- 2025年正安县事业单位联考招聘考试历年真题完美版.docx
- 2025年金沙县事业单位联考招聘考试真题汇编新版.docx
- 2025年乐业县辅警招聘考试真题汇编及答案1套.docx
- 2025年新龙县事业单位联考招聘考试历年真题附答案.docx
- 2025年淮阳县事业单位联考招聘考试历年真题含答案.docx
- 2025年紫金县事业单位联考招聘考试真题汇编含答案.docx
- 2025年永福县事业单位联考招聘考试历年真题推荐.docx
- 2025年睢县事业单位联考招聘考试历年真题含答案.docx
最近下载
- 供应室-清洗、消毒流程与质量要求ppt课件.pptx VIP
- 心衰患教--疾病管理篇1127版整理版.ppt VIP
- 2025年秋人教版二年级数学上册期中试卷.docx VIP
- 全新版大学进阶英语综合教程第3册unit 2 conspicuous consumption.pptx VIP
- 2025秋人教版二年级语文上册期中试卷.pptx VIP
- 2022年安徽中医药大学计算机科学与技术专业《操作系统》科目期末试卷B(有答案).pdf VIP
- 2025年高考化学试卷(重庆卷)(空白卷).pdf VIP
- Part 1-2 Unit 2 Transportation 教案-中职高一英语(高教版基础模块1).pdf VIP
- 九小场所安全培训.pptx
- 2025年秘书考试的选择题和答案 .pdf VIP
原创力文档


文档评论(0)