2011年度第3次课-数据集成new.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据集成中的模式匹配 模式匹配基本概念 中间模式 源模式 源模式 源模式 包装器 包装器 包装器 数据源 数据源 数据源 数据源模式匹配 第3章 数据集成 模式匹配基本概念 数据互操作和共享的冲突 冲突的产生主要来源于数据源的异构性,按照一般的分类, 可以将异构性划分为四个层面:系统、语法、结构、语义。 系统层面的异构性主要考虑系统软、硬件差异带来的异构性。 在模式集成领域,对异构性的研究主要包括在后三个层面上, 即语法、语义和结构层面。因此模式集成方法和技术的研究主要 集中在对上述三个层面的研究工作中。 第3章 数据集成 模式匹配的主要技术 我们对相关文献按照语法、语义、结构三个层面进行了分 析,归纳出模式匹配的主要技术如下: (1)语法层面,采用的技术主要包括 基于字符的匹配映射方法; 基于表示语言的匹配映射方法等。 (2)结构层面,采用的技术主要包括 基于约束的匹配映射方法; 基于图的匹配映射方法; 基于分类的匹配映射方法等。 (3)语义层面:采用的主要技术包括 基于本体的匹配映射方法; 基于模型的匹配映射方法等。 模式匹配基本概念 第3章 数据集成 模式匹配的主要技术 模式匹配基本概念 语法层面的研究工作开展比较早,其中基于字符的匹配映 射方法主要采用的技术有前缀匹配技术、后缀匹配技术、编辑 距离技术和n_gram技术等。这些方法都以字符串匹配为基础, 通过对局部模式元素的匹配确定映射集合。 基于表示语言的匹配映射方法利用标识器标识字符序列, 主要方法有标记技术、基本形式技术、去处技术等,利用局部 模式的约束定义实体,并增加了数据类型比较和多样性比较。 这类技术采用的基本思想是:模式元素的相似性越强,其匹配 的可能性就越大。 主要问题是没有充分利用领域知识,不能对领域中经常出现 的问题的解决,如对同名异义及异名同义的模式元素的识别等。 语法层面研究 第3章 数据集成 模式匹配的主要技术 模式匹配基本概念 结构层面研究(1) 结构层面的研究工作中基于图的匹配映射技术主要采用的 方法包括:图匹配法,孩子节点匹配法,叶子节点匹配法以及 节点关系匹配法。该技术将输入看作是可标记的图。其基本思 想是:模式匹配可以看作是具有像图一样的结构,包含了条件 和相互关系,对两个模式的节点对的相似性主要是基于它们在 图中的位置。如果来自两个模式的节点具有相似性,则其邻节 点具有相似性的概率较高。 第3章 数据集成 结构层面另外一个重要的研究领域为基于分类的匹配映射 技术,该技术实际上也是一种图算法,其主要思想是考虑图上 的特殊关系,通过分类所产生的具有IS-A关系的组之间具有相 似关系,并且由此推断其相邻节点的组存在相似性。主要技术 包括有限路径匹配法和超集子集匹配法。图的匹配问题涉及到 组合问题,因此当前该方面的研究主要在解决组合爆炸问题, 减少系统开销。 结构层面研究(2) 模式匹配的主要技术 模式匹配基本概念 第3章 数据集成 语义层面的研究是目前国内外模式匹配最活跃的研究领域, 目前的趋势是利用语法层面和结构层面的研究成果,从语义层面 加以改进和利用。目前主要的技术包括基于模型的匹配映射方法 和基于本体的模式映射方法。其中基于模型的方法主要包括命题 满足法和逻辑推理法。主要思想是将图(树)的匹配问题分解为 节点集合的匹配问题,节点之间可以存在对等关系,将匹配问题 转化为命题形式并校验其合法性。 语义层面研究(1) 模式匹配的主要技术 模式匹配基本概念 第3章 数据集成 语义层面研究(2) 模式匹配的主要技术 模式匹配基本概念 基于本体的方法主要利用外部知识源参与并帮助发现模式元素 之间的匹配,目前基于本体的方法,在CARNOT项目的CYC本体被 用于替代了全局模式。CARNIOT项目需要管理员手动将模式映射 到全局本体。全局需求因此也针对本体提出。MOMIS系统半自动 实现全局模式构建,方法是使用WORDNET作为一个词汇参考数据 库获取并手工标注模式。使用WORDNET允许系统模式间的词汇关 系和结构关系。类似使用WORKDNET这样的大型本体的问题在于 它具有太强的一般性,不是针对某个领域,并且没有建模实体间的 关系。将本体作为全局模式主要的问题是如何实现本体与模式之间 的匹配映射,当前主要的方法是采用基于规则和基于学习的方法。 基于规则的方法较容易获得并且不需要进行复杂的学习。由于基于 规则的方法通常只对模

文档评论(0)

187****5045 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档