基于DOM树的DeepWeb接口属性自动提取算法.docVIP

基于DOM树的DeepWeb接口属性自动提取算法.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于DOM树的DeepWeb接口属性自动提取算法 朱 杨, 段青玲 (中国农业大学信息与电气工程学院计算机系, 北京 100083) 摘 要: Deep Web接口集成是为了向用户提供一个统一的查询接口来获取Deep Web信息。要完成Deep Web接口集成,首先需对各Deep Web接口的属性进行自动提取,它们是后续集成工作的基础,如何将属性与其对应的语义文本进行准确的匹配是其中的难点。本文提出了一种基于表单DOM树的Deep Web接口属性自动提取算法,以控件节点作为起始节点,然后通过自右向左遍历的方式逐层寻找与控件相对应的语义文本,从而确定每个属性的语义信息,最后将提取的接口属性集采用XML格式保存,实验结果表明此算法具有较高的提取准确率。 关键词:深网;查询接口;表单;属性提取 中图法分类号: TP391 文献标识码:A The Algorithm for Automatic Extraction of Deep Web Interface Attributes based on DOM Tree Yang, Zhu Qingling Duan , 1(College of Information and Electrical Engineering, China Agricultural University, Beijing 100083, China) Abstract:Deep Web interface integration is in order to provide a uniform query interface for users to access Deep Web information. Automatic extraction of interface attributes is needed first to complete the integration, which is basis for the follow-up integration work. The difficulty is finding the matching semantic text for each attribute. This paper presents an algorithm for automatic extraction of deep web interface attributes based on DOM tree, which traverses the nodes from right to left to search the matching text for each attribute starting from the control to determine the semantic information of each attribute, and conserve the attributes with XML. The experiment results show good performance of the algorithm. Key words:xtraction 随着Web的发展,Internet中的信息正加速地“深化”[1,2],有大量的页面是由后台数据库动态产生的。传统搜索引擎不能索引这些页面,这部分不可见信息被称为Deep Web(深网)。Deep Web是与Surface Web(浅层网)相对应的概念,和浅层网相比其特点是信息量更大,主题更专一,信息结构化更好[3]。研究结果显示,Deep Web信息量是Surface Web的400~550倍,2004年整个Web上的Web数据库数量已达到450000个,而这个数字仍在飞速增长[4,5]。 近年来对Deep Web研究正逐渐兴起,而研究的根本目的是帮助用户提供一个统一的访问途径来获取利用分布在Web上的海量Deep Web信息。而Deep Web查询接口集成正是为用户提供一个统一的查询接口,使之可以同时向多个同一领域内的查询接口提交查询,即达到同时访问多个Web数据库的目的[6,7]。接口集成的首要工作是将各个查询接口的相关属性准确的提取并保存。这些属性集是下一步工作的基础,包括对查询接口的自动分类和同一类的各接口间属性的匹配映射等。 1 研究现状 目前的研究工作大多都集中在Web数据库的发现、数据源分类聚类以及查询接口模式匹配等方面,而关于Deep Web接口属性自动提取方面的研究较少。文献[8-10]对于整个页面结构的分析有了较为细致的工作,,,,precision为80%,recall89%,但还不能完全达到实际应用的程度。 本文根据查询接口中属性在DOM树中体现出的位

文档评论(0)

***** + 关注
实名认证
文档贡献者

本账号下所有文档分享可拿50%收益 欢迎分享

1亿VIP精品文档

相关文档