Deep+Web数据集成系统中数据抽取及语义标注研究.pdf

下载文档 降价啦

4
0
约5.36万字
约 41页
2015-10-15 发布于安徽
举报
保障服务

Deep+Web数据集成系统中数据抽取及语义标注研究.pdf

摘要摘要由于Internet上数据具有异质性和多样性的特征，导致同一个领域中不同网站的结构也有很大差别，因此，用户要从Web上逐渐增多的海量数据中找到自己感兴趣的信息变得日益困难。目前，一项重要工作就是把结果页面中用户感兴趣的相关数据抽取出来，并为其添加语义信息，然后集成为统一的结构化形式，以供后续处理及使用，这就是Deep Web数据集成系统中数据抽取和语义标注。在Deep Web数据集成系统的研究中，现有的数据抽取方法依赖于查询接口模式和查询结果模式，或者使用树编辑距离算法导致时间复杂度高，影响了数据抽取的效果。本文将XML技术运用到抽取过程中，并且基于本体进行语义标注，主要工作有以下几个方面： 1．提出了一种基于索引路径的数据抽取方法，先为每一个文本节点建立索引路径，再通过关键字定位数据区，形成抽取规则，输出相应的Wrapper ，利用Wrapper能够对同一个网站中相同领域的同类网页进行自动地数据抽取。这种方法既不依赖HTML文档的标签，也不使用树编辑距离，而是充分利用用户感兴趣的数据在网页中的连续性和结构相似性的特点定位数据区，抽取数据，形

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

Deep+Web数据集成系统中数据抽取及语义标注研究.pdf

Deep+Web数据集成系统中数据抽取及语义标注研究.pdf

您可能关注的文档

最近下载

文档评论（0）

1亿VIP精品文档

相关文档