信息集成总结.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
信息集成总结

信息集成总结   摘要: 随着因特网和电子商务所造成的数据量和多样性的爆炸,信息集成得到广泛应用。信息集成涉及分布式系统等多个方面,其技术在IT行业和科学研究领域都得到广泛应用,同时实现过程中也面临多种困难和挑战,如信息异构、保证系统的互操作性等关键问题。   关键词:集成;分布式;异构   中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2013)17-3914-04   网络技术的飞速发展,硬件、软件技术的逐渐成熟,为资源共享提供了条件。在这样的背景下,大数据时代迅速形成。由于大量信息存储于各种独立的设备和应用中,为了跨学科和不同领域的知识共享,建立集成系统是计算机科学必须完成的任务。相关领域的知识如图1所示,包括:分布式系统、集成系统、分布式查询处理、元模型、模式映射、本体和描述逻辑。本体和逻辑描述语言为传统的以数据库为中心的系统提供了一个可供选择的通用元模型。   1 信息集成定义   信息集成提供了透明访问多异构、分布式信息系统的方法。由于最重要的应用领域是在商业信息范围内,几乎所有文献中的定义都直接与企业信息集成(EII ,Enterprise Information Integration)相关。Alon Halevy给出这样的定义:EII的应用前景是提供一种可以不用下载所有的数据到数据仓库中也可以进行数据集成的工具[1]。此后,数据仓库和信息集成被认为是不同的方法。然而,如今清晰的区分这两种方法已经比较困难了。现在数据仓库支持虚拟数据集成(VDWs ,Virtual Data Warehouses),而EII方法支持实体化并具集成了数据仓库的特点。成功的信息集成系统在九十年代末到达市场,而数据仓库已经被企业普遍利用[1]。很明显,如果没有网络的发展,EII是没办法和数据仓库方法相抗衡的。   数据和信息集成之间没有明显的区别。它们关系紧密,被频繁的用作同义词,但是信息建立在数据之上。信息的经典定义是:信息是又一定含义的、经过加工处理的、对决策有价值的数据。并且,在过去的几年里信息集成使用频率较高,术语企业信息集成采用了信息而不是数据。三十年前起始于数据库社区对传统数据集成的关注力,已经转移到更好的理解真实数据。   2 信息集成技术的应用   信息系统的集成越来越重要有很多原因。过去十年间,基于特殊应用需求,商业和研究机构已经开发了相当自动化的IT系统。随着IT基础设备合作的重要性的增长,公司开始将独立的系统迁入或者集成入通用的企业IT系统。万维网的传播提供了新的商业机会和出口,同时还有新的商业模式。需求的增加需要开发新的软件系统,由于软件开发代价相当高昂,那些新系统必须和遗留的系统协同工作。此外,兼并和并购需要将外部IT系统迁入到共同的IT架构中来。因此,在当今企业IT中,信息集成已经成为最重要因素之一。事实上,EII只是使异构系统可以协作工作所采取措施中的一部分。特别在商业IT内部,那些措施被称为企业应用集成(EAI,Enterprise Application Integration )。   然而,信息集成不仅是商业和企业IT的重要任务,也是全球科学合作的重要需求。和商业IT相比,研究领域的数据模型和支持力度更复杂、要求更高,尤其是在生命科学领域。例如,管理生物医学研究领域信息就需要极高的语义表示。开发这种基于知识的特殊系统是个非常复杂的过程,并且花费时间长、需求资金多。科学信息系统通常异构,也致使集成更加困难。因此,他们通常自主开发、使用独立的系统。   当存在很多高度特殊化并且复杂的科学系统,也存在很多研究者为达到研究目的而开发的系统。例如MySQL数据库或存储搜索历史的本地文件路径。这些专门的设置和不一致的原型,已经渐渐成为重要的大型数据仓库和必不可少的应用。使用这样现代化应用系统中的信息需要大量的工作来转换数据和迁移应用。由于完整的迁移和再实现代价太高,往往采用集成遗留系统。相似的,在企业内部完全从写一个应用也是不可能的,因为用户和合作者仍然需要使用遗留的系统。所以使用这种异构、独立的系统的唯一方法就是信息集成。   如今,个人信息集成也变为一个越来越重要的课题[2]。目前的研究成果向语义桌面方向发展[3]。语义桌面技术某种程度上得益于信息集成的方法。   3 面临的挑战   信息集成的主要挑战是分布性、异构和自治。虽然说这三方面基本上是独立的,但是仍然有相关之处。例如,两个信息源的自治性越高,通常它们的分布和异构水平就越高。   3.1 分布式   信息集成的处理对象信息是分布式的。可能是逻辑上分布,也可能是物理上分布。物理分布占据了较大比例。为了传递信息,数据首先需要被下载并从远程信息源传输给用户。数据源的地址可以由DNS或者URL获得

文档评论(0)

151****1926 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档