一种基于领域本体的Deep Web数据自动标注方法.pdfVIP

一种基于领域本体的Deep Web数据自动标注方法.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第 3l卷第4期 苏 州 大 学 学 报 (工 科 版) Vol_31 No.4 2011年 8月 JOURNALOFSOOCHOW UNIVERSITY(ENGINEERINGSCIENCEEDITION) Aug.2011 文章编号:1673—047X(2011)一04—0011—05 一 种基于领域本体的DeepWeb数据 自动标注方法 杨 舟 ,岳 亮 ,卓 林 ,赵朋朋 ,崔志明 (1.苏州大学智能信息处理及应用研究所,江苏 苏州215006;2.江苏省现代企业信息化应,q1支撑软件工程技术研发中心,江苏苏州215104) 摘 要:为了准确全面地对DeepWeb查询结果页面的数据进行语义标注,将领域本体作为Web数 据库所应遵循的全局模式引入到语义标注的研究中,通过建立起接 口模式、结果模式与本体间的映 射来实现数据 的自动语义标注。针对多个不同领域的Web数据库进行实验测试,证明了该方法是 有效的。 关键词 :DeepWeb;数据标注;本体;模式匹配 中图分类号:TP399 文崮标 识码 :A 0 引 言 DeepWeb是指Web中可访问的在线数据库,其 内容通常是由用户在查询接 口页面提交查询请求获得 的。研究表明,DeepWeb中包含了大量有价值的信息,其信息量是普通网页的550倍,而且还在快速增长。 为了有效利用DeepWeb中的信息,需要对这些不同数据源中的信息进成集成,在集成的过程中,结果页面中 的数据会被抽取出来。但这些被抽取出的数据通常是机器不可理解的,因此必须为其添加语义标注。经过标 注后,抽取出的数据便具有了其代表的含义,从而便于后续的集成工作。 目前针对数据标注的研究还处于起步阶段,主要分为启发式规则和模式匹配两种。文献[1]使用启发式 规则方式进行语义标注,这种方法只能对部分抽取到的数据进行标注,且准确率较低。文献 [2—3]提出了模 式匹配标注思想,对各个Web数据库的模式之间建立匹配关系,利用预先建立的模式匹配关系对数据添加语 义。这种方法受到页面结构化程度的影响,对于那些结构化程度较低的结果页面,很难保证其正确性。 本文为了达到较好的DeepWeb数据标注效果,利用领域本体,结合Web的接 口模式和结果模式,建立了 一 个统一的全局模式,并在它们之间建立起映射关系,以达到最终的标注结果。 1 研究思路 本文利用了本体所具有强语义表达能力的特点,将其用于查询接 口和查询结果的分析,用本体表示一个 特定领域资源的特征,建立起一个概念的层次树结构,最底层节点是属于父节点概念的实例集合,这样 ,通过 实例查询可以估计每层的每个分类在一个Web数据库中所拥有的信息比例,能够更好地刻画Web数据库在 这个属性上的特征,从而解决标注DeepWeb数据的问题。其定义就是假设有一个词汇集合 W={W,W,…, },一个待标注的查询结果的属性集合 V= ,:,…, }。语义标注就是要对每一个 ∈V,找到一个合适 的 f, 以较准确地描述 的语义,也就是建立集合 {wi wj ∈V, W}。本文方法包含两个模 块:本体映射模块、语义标注与抽取模块。图1给出了数据标注的设计框架。 收稿 日期:2010—03—24 作者简介:杨 舟(1985一),男,硕士研究生,主要研究方向为智能信息处理。 基金项目:国家 自然科学基金资助项 目(编;2008年江苏省重大科技支撑与自主创新项 目(编号BE2008044)。 12 苏州大学学报 (工科版) 第31卷 图1 数据标注的设计框架 2 本体与模式间的映射 引入领域本体的目的是给所有的DeepWeb数据库提供一个普遍遵循的统一规范,从而解决不同网站的 接 口模式与结果模式的异构性问题以及接 口模式缺失和结果模式不明显的问题,但由于接 口模式与结果模式 是对DeepWeb查询结果最直接的说明,因此本文没有完全放弃接 口模式和结果模式,而是在两种模式与本 体概念之间建立起一种映射关系,从而实现互补,更好地完成标注的结果。 2.1 接 口模式与结果模式特征分析 查询接 口通常是获取DeepWeb信息的唯一人VI。查询接1:3页面中含

文档评论(0)

liyxi26 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档