Deep+Web数据集成系统中数据抽取及语义标注研究.pdf

Deep+Web数据集成系统中数据抽取及语义标注研究.pdf

摘 要 摘 要 由于Internet上数据具有异质性和多样性的特征,导致同一个领域中不同网站的结构 也有很大差别,因此,用户要从Web上逐渐增多的海量数据中找到自己感兴趣的信息变 得日益困难。目前,一项重要工作就是把结果页面中用户感兴趣的相关数据抽取出来, 并为其添加语义信息,然后集成为统一的结构化形式,以供后续处理及使用,这就是Deep Web数据集成系统中数据抽取和语义标注。 在Deep Web数据集成系统的研究中,现有的数据抽取方法依赖于查询接口模式和查 询结果模式,或者使用树编辑距离算法导致时间复杂度高,影响了数据抽取的效果。本 文将XML技术运用到抽取过程中,并且基于本体进行语义标注,主要工作有以下几个方 面: 1.提出了一种基于索引路径的数据抽取方法,先为每一个文本节点建立索引路径, 再通过关键字定位数据区,形成抽取规则,输出相应的Wrapper ,利用Wrapper能够对同 一个网站中相同领域的同类网页进行自动地数据抽取。这种方法既不依赖HTML文档的 标签,也不使用树编辑距离,而是充分利用用户感兴趣的数据在网页中的连续性和结构 相似性的特点定位数据区,抽取数据,形

文档评论(0)

1亿VIP精品文档

相关文档