基于视觉分块与语义dom的deep web 信息抽取研究-research on deep web information extraction based on visual block and semantic dom.docxVIP

下载本文档

4
0
约4.02万字
约 57页
2018-05-20 发布于上海
举报

基于视觉分块与语义dom的deep web 信息抽取研究-research on deep web information extraction based on visual block and semantic dom.docx

基于视觉分块与语义dom的deep web 信息抽取研究-research on deep web information extraction based on visual block and semantic dom

摘要隐藏在普通搜索引擎的背后，需要用户提交表单查询并从后台数据库中返回结果页面才能获取到的信息，称为DeepWeb。当前对DeepWeb数据抽取的研究是一个比较热门的话题。随着页面结构变得越来越复杂，以及动态网页技术的引入，使得DeepWeb页面存在异构性和半结构化的特点。如何快速有效地从这些半结构化的结果页面中抽取用户感兴趣的数据以提供特定的服务成为一个难点。目前研究的主要问题包括：(1)如何有效快速地识别噪声信息，使得在对原始页面分析之前尽可能对页面进行清洗；(2)如何根据DOM树结构和页面视觉信息快速定位页面的主数据区域；（3）如何不受页面结构差异的影响尽可能自动地抽取页面数据。针对上述问题，传统的单一的基于DOM树的页面分析方法已经无法满足用户的需求。因为单一的基于DOM树的页面分析方法主要依赖DOM树的结构特征，需要解析页面所有的标签将其转化为DOM树，忽略了页面的一些有效的视觉特征，并且一旦页面的结构发生变化，需要重新对页面的结构进行分析再抽取。目前，微软亚洲研究院提出了一种新的页面数据抽取方法—VIPS算法。VIPS算法打破了以往传统的基于DOM树抽取方法，从人的视觉角度出发，把页面分割为一个个有效的视觉块，并对这些视觉块进行语义重组，形成一棵视觉块树。该算法在DOM树结构和页面的语义之间建立了桥梁。本文通过分析DeepWeb结果页面的特点，结合人的视觉特征，在VIP

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

基于视觉分块与语义dom的deep web 信息抽取研究-research on deep web information extraction based on visual block and semantic dom.docxVIP