- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
无结构化数据集成方法在数字图书馆中应用
无结构化数据集成方法在数字图书馆中应用
〔摘 要〕针对数字图书馆中的图像、视频、音频等无结构化数据的集成问题,提出了语义对象模型的概念,实现无结构化数据的统一全局对象表示。在此基础上,提出了一种以XML数据模型为基础的无结构化数据集成方法。
〔关键词〕数据集成;元数据;数字图书馆
〔中图分类号〕G250.76 〔文献标识码〕A 〔文章编号〕1008-0821(2009)03-0087-03
随着Internet的发展和普及,信息资源已经实现了全球范围内的共享,信息的存储和检索方式也发生了巨大的变化,传统图书馆的工作方式已经不能满足人们的要求,数字图书馆作为一种新的信息资源管理模式正在蓬勃发展。数字图书馆是一个通过互联网连接在一起的分布式数据信息库,它将全球网络上所有信息资源集成起来,形成一个大型的分布式共享信息库,利用先进的信息技术,将包括印本、电子出版物、多媒体数据等各种类型的信息资源集成起来,构建一个在网络环境下支持普遍存取、分布式管理和集成信息服务的信息环境,为用户提供简单、快捷的个性化信息服务[1]。
数字图书馆的实现需要分布式数据库技术、数据挖掘技术、智能搜索引擎技术、机器翻译技术等多种技术的支持,然而,这些关键技术能够顺利实现的基础是解决数据的统一表现方式问题。数字图书馆的数据是由散布在因特网上的大量数据组成,包括文本等结构化数据,半结构化的网页数据,及音频、视频等非结构化数据。只有将这些数据集成起来,向用户提供一个统一的视图,数据挖掘、搜索引擎等工具才能有效地进行工作[2]。目前对结构化和半结构化数据集成的研究采用中间件技术和基于XML的数据模型和模式定义语言、查询语言实现,已经获得一定的进展,而对于系统中存在大量的图形、图像、音频、视频等无结构化数据,这些数据没有统一的模式描述,很难进行数据集成[3]。因此对无结构化异构数据源集成技术的研究具有重大的现实意义和紧迫性。
1 无结构化数据表示
1.1 元数据表示
数字图书馆中数据的特征是由元数据来表示的,元数据是关于数据的数据[4],它说明了其它数据的特征和属性信息,如数据结构、数据索引,数据的域等。根据元数据对数据的描述层次不同,元数据分为模式级元数据(对数据的结构、类型、一致性约束等进行定义)与语义级元数据(对数据的语义概念,如书目信息中的作者、出版日期等进行描述)两类。
对于数字图书馆中的无结构化数据,可以使用元数据描述基于主题概念的相关信息,如对一个图片内容的介绍,这些元数据可认为是语义级元数据。元数据对图片、视频、音频等无结构化数据资源的查询与获取非常重要。在某些情况下,可能需要基于无结构化数据的内容结构进行查询[5],如根据图片的像素点的特征向量进行匹配查询,这些特征向量是模式级元数据。然而一般情况下,用户需要根据数据的分类等语义级元数据描述信息进行查询,如根据电影名、电影类型,电影导演、男女主角,电影简介等查找电影的视频数据,因此,语义级元数据给无结构化数据赋予了更多关于内容的描述信息。
通过使用元数据,可以对无结构化数据进行查询等相关操作,由于无结构化数据内容的查询是近似查询,语义信息对提高查询无结构化数据的精确性是非常重要的,并且语义信息对实现无结构化数据的集成也是必需的,因此需要对无结构化数据的语义信息进行精确定义。
1.2 无结构化数据的语义对象表示
结构化数据可以存放在关系型数据库和面向对象数据库中,这些数据源具有严格的数据模型和外在的模式定义,模式是指数据源中的数据类型和逻辑组织形式等信息,比如在关系型数据库中一个表的定义就是一个模式,它描述了这个表中的属性名、属性的排列顺序、属性的域、主键和外键等信息,结构化数据集成中主要考虑如何根据数据源模式建立一个全局的模式,这个全局模式定义了系统中的数据内容和数据的逻辑组织形式,用户的查询语句针对全局模式生成,这种集成方式也称为模式集成。
无结构化的数据源只有一些描述性的语义信息,没有外在的模式定义,因此很难采用上述方法对数据本身进行结构化转换。本文利用面向对象的思想,将无结构化数据源中的每个数据看作一个对象数据,例如一部电影看作一个电影对象数据,对象数据及其相关语义元数据看作一个整体,即一个语义对象。这样无结构化数据源抽象为语义对象的集合。
定义1:语义对象SO(Semantic Object)是一个三元组:
SO∷=<ID,S,O>
其中,ID是对象的标识;S是SO的语义信息的集合,即语义级元数据;O是SO的对象数据的集合,比如一部电影可能有多个MPEG文件,共同组成了O。S中有O的URI(Uniform Resources Identifier),指明了O的存储位置。这样
文档评论(0)