Deep web 接口集成 属性抽取论文.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Deep论文:Deep web中基于领域知识的接口集成 【中文摘要】随着WWW技术的高速发展,基于网络数据库(Web DataBase, WDB)Web的应用程序数量呈指数级增加,随着这些应用程序的增加,互联网信息来源发生了巨大的改变。这改变对传统的基于搜索引擎的查询和获取信息的方式带来了巨大的挑战。由于这些基于Web的数据库,仅能通过HTML查询表单提交数据获得,并动态生成查询结果。这些信息不能为传统搜索引擎所获得,因此研究如何利用这部分即将成为Web信息最大来源的深度网(Deep web)的数据,是十分有必要的。从1994年Dr.Jill Ellsworth提出了深度网的概念,国外就开始对深度网进行了大量的研究工作。并提出了深度网信息集成框架,该框架共分三大部分:深度网接口集成,主要完成对深网接口的发现,分类以及模式抽取;查询处理,主要完成对客户查询请求的映射;结果处理模块,主要完成查询结果的抽取,变换与合并数据的任务。研究深度网的最终是为获取隐藏于Web应用之后的网络数据库中的数据。由于WDB仅仅只提供了基于HTML表单的查询接口,以及基于HTML的查询结果返回,并且HTML语法弹性过大,写法灵活,不包含任何WDB语义信息,所以通过HTML的分析来对WDB查... 【英文摘要】With the rapid development of WWW technology, WDB-based Web applications exponentially increase, along with the increase of these applications; the Internet source of information has undergone tremendous changes. These changes have brought the traditional search-engine-based query and way of obtaining information huge challenge. Because of these Web-based database, query results which can only be got by submitting data through the HTML query form and then generated dynamically cannot be obtained by traditio... 【关键词】Deep web 接口集成 属性抽取 【英文关键词】Deep web Interface Integration Interface Schema extraction 【目录】Deep web中基于领域知识的接口集成 摘要 5-6 Abstract 6 序论 7-10 第1章 相关知识 10-22 1.1 HTML 10-14 1.1.1 HTTP简介 10 1.1.2 HTML表单 10-12 1.1.3 HTML DOM 12-13 1.1.4 HTTP协议 13-14 1.2 Deep web接口抽取与集成技术框架 14-22 1.2.1 术语定义 15-17 1.2.2 接口的发现与判定 17-18 1.2.3 接口属性抽取 18-19 1.2.4 接口查询接口的集成 19-22 第2章 接口集成理论 22-30 2.1 接口的发现 23-25 2.1.1 网络爬虫 23-24 2.1.2 基于网络爬虫的接口发现 24-25 2.2 接口的判定 25-27 2.3 接口属性抽取 27-29 2.3.1 N-Gram算法 28 2.3.2 基于N-Gram的属性抽取 28-29 2.4 接口模式抽取 29-30 2.4.1 接口属性的匹配 29 2.4.2 全局属性抽取 29-30 第3章 接口集成系统 30-48 3.1 基于聚焦网络爬虫的接口发现 30-36 3.1.1 爬虫入口 30-31 3.1.2 爬虫工作流程设计 31-33 3.1.3 页面预处理 33 3.1.4 页面词频的统计 33-34 3.1.5 爬虫限定条件 34-35 3.1.6 候选URL优化 35-36 3.2 查询接口的判别 36-38 3.2.1 分类器特征提取 37 3.2.2 使用感知器分类 37-38 3.2.3 去除非当前领域接口 38 3.3 基于N-Gram的接口属性抽 38-41 3.3.1 属性抽取总体流程 38-39 3.3.2 分解表单元素 39-40 3.3.3 N-Gram匹配过程 40-41 3.3.4 不匹配的情况 41 3.4 文本语义处理 41-45 3.4.1 中文分词 41-43 3.4.2 同义词扩

文档评论(0)

海川电子书城 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档