摘 要
摘 要
由于Internet上数据具有异质性和多样性的特征,导致同一个领域中不同网站的结构
也有很大差别,因此,用户要从Web上逐渐增多的海量数据中找到自己感兴趣的信息变
得日益困难。目前,一项重要工作就是把结果页面中用户感兴趣的相关数据抽取出来,
并为其添加语义信息,然后集成为统一的结构化形式,以供后续处理及使用,这就是Deep
Web数据集成系统中数据抽取和语义标注。
在Deep Web数据集成系统的研究中,现有的数据抽取方法依赖于查询接口模式和查
询结果模式,或者使用树编辑距离算法导致时间复杂度高,影响了数据抽取的效果。本
文将XML技术运用到抽取过程中,并且基于本体进行语义标注,主要工作有以下几个方
面:
1.提出了一种基于索引路径的数据抽取方法,先为每一个文本节点建立索引路径,
再通过关键字定位数据区,形成抽取规则,输出相应的Wrapper ,利用Wrapper能够对同
一个网站中相同领域的同类网页进行自动地数据抽取。这种方法既不依赖HTML文档的
标签,也不使用树编辑距离,而是充分利用用户感兴趣的数据在网页中的连续性和结构
相似性的特点定位数据区,抽取数据,形
您可能关注的文档
最近下载
- 2.工法正文--隧道仰拱下深埋中心水沟与掌子面同步施工工法.doc VIP
- 公安执法中警察执法行为的法律规制.docx VIP
- 5.26甘肃省岷县立林青林沟一带金矿详查实施方案.pdf VIP
- 《学校心理健康教育》第一章 学校心理健康教育概述.pptx VIP
- 毕业设计基于单片机及nRF2401的无线通信模块.doc VIP
- 学校心理健康教育讲义.pptx VIP
- 教学课件 学校心理健康教育--郑希付.ppt
- 2026年赣州市高三(二模)政治试卷(含答案).docx
- 医学课件-Lunar iDXA双能X线骨密度仪的工作原理和维修两例.pptx VIP
- 深度解析(2026)《ISO 155512023石油天然气工业 钻井和生产设备 人工举升用潜油电泵系统》标准解读.pptx VIP
原创力文档

文档评论(0)