基于视觉特征网页信息提取.pdf

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于视觉特征的网页信息提取* 吴倩,杨逍,张兆心 哈尔滨工业大学(威海)计算机科学与技术学院,威海,264209 E-mail: yxyx3258@163.com 摘 要:在互联网技术高速发展的时代,Web 成为全球最大的信息数据库,如何有效管理、利用Web 信 息是当前的热点问题,本文主要探讨了Web 网页信息提取问题。传统的网页信息提取主要基于DOM 树及 HTML 标签分析,文中在基于网页视觉特征分块算法VIPS 基础上,通过归纳Web 网页视觉特征及视觉块 特征信息,提出了基于视觉块的定位算法的Web 页面信息提取方法。分别将主题型网页和BBS 型网页作 为VIPS 算法的输入,分析VIPS 算法输出的视觉分块树中视觉分块,定义纯文本密度和链接文本密度等 视觉特征量,提出了视觉块定位算法VBPA ,定位主题信息块到VBT 中的某一个节点,进而提取主题信 息。实验结果表明,基于视觉特征的视觉块定位算法要优于传统网页信息提取算法,可以得到较高的信息 提取质量。 关键词:VIPS ;视觉块定位;VBPA ;主题内容提取;BBS 信息提取。 Web informationextraction based on visual characteris tics WU Qian, YANG Xiao, ZHANG Zhao-xin School of Computer Science and Technology Harbin Institute of Technology (Weihai), Weihai 264209 E-mail: yxyx3258@163.com Abstract: In the age of rapid development of Internet technology, Web is becoming the worlds largest database of information, how to effectively manage the use of Web information is currently a hot issue. This paper discusses the issue of Web information extraction. Traditional web information extraction is mainly based on DOM tree and HTML tag analysis. Based on VIPS, the paper is proposed visual block positioning algorithm for Web page information extraction through induction Web page visual features and visual pieces feature information. The theme-based web-site and BBS web-site input as VIPS, analysis the output of VIPS and the visual block tree and define visual characteristics such as text density and link text density. The paper put forward a visual block positioning algorithm VBPA. It will be the theme of location information to a node VBT, and then to extract theme information. Experimental results show that the visual features of the visual block positioning

文档评论(0)

xuefei111 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档