基于SAS网格的分布式企业数据服务平台.docVIP

基于SAS网格的分布式企业数据服务平台.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于SAS网格的分布式企业数据服务平台 山东省分公司信息技术部 周爱广 摘要:本文介绍了一种基于数据网格的数据服务平台的设计,它以SAS系统为基础,将数据网格计算引入到企业信息服务系统,综合解决了数据网格中的各种关键技术,为海量数据的存储和利用提供了有力手段,同时为数据集中管理模式下的多级应用和增值开发提供了有效的支持。 关键词:网格计算 数据管理 SAS 分布式系统 引言——数据集中产生的问题 近年来,由于风险管控和集约化生产的需要,我公司生产系统数据历经了由地市级分布存储、到省级物理集中存储、再到省级逻辑集中存储这样一个过程,随着数据集中化程度不断提高,不仅带来了生产应用系统的结构以及系统维护模式的变化,同时给数据的统计、分析、查询等增值数据加工服务带来了一定困难,主要有以下几个方面: 多级应用模式面临危机。由于历史的原因,我公司各级单位都形成了各具特色的数据需求模式,既表现在指标展现形式的多样化,又有各种企划活动中指标口径的多样化。这些过去由分公司信息技术人员支持的需求,此时需要省公司响应,由于人员岗位设置的限制,响应的实效性难以保证。 基层技术人员面临转型。由于生产数据的迁移,基层信息技术人员岗位职责也随之变化,由数据管理变成应用管理和服务支持。虽然他们从日常繁杂的数据维护中解放了出来,可以有时间专门进行增殖数据服务支持了,但是数据此时又被收走了。 数据量增长的同时利用效率急剧下降。由于集中,数据量比过去基本高了一个数量级,部分主表的行数已经接近或超过千万行,甚至几千万行。量变引起质变,上百G的数据在集成模式下,简单的统计和查询都缓慢得让人无法忍受。 以上三点其实构成了一个多元的矛盾体,一方面基层多样化、迫切的数据需求得不到有力支持,同时基层信息技术人员无法高效、快捷地访问到数据,另一方面还有大量的数据集中在一起,只能被低效、有限的使用。为了有力缓解企业中这一矛盾,实现集中模式下多级、多样化、高效的应用,我们引入了基于SAS网格的数据服务平台。 数据网格——构建海量数据服务平台的必由之路 网格是从电力网格中借鉴过来的一个概念,原本是希望计算力和计算资源能够象电力一样,“打开电源开关就可以使用”,不用去关心是谁、如何提供的这些服务[1]。 目前,网格按照普遍的观点可以分成计算网格、数据网格、访问网格、信息网格、服务网格等。各种网格的目标都是将地理上分布、异构的各种高性能计算机、数据服务器、大型检索存储系统和可视化、虚拟现实系统等,通过高速互连网络连接并集成起来,共同完成一些重大的复杂的任务。它不仅实现了对各种计算资源的访问,而且实现了对所有数据资源的统一访问[2]。 数据网格则强调的是数据存储、管理、传输、处理,同时也包括优化应用、提高数据访问效率。它的优势在于借助网格计算,企业可以优化计算和数据资源,把这些资源集中用于大容量的工作负荷,通过网络共享资源,以及促进协作和提高效率。因此,数据网格可以很好地解决企业海量数据的应用问题。 目前的数据网格中的关键问题有[3]: 元数据管理和信息服务。元数据用于描述资源、方法、数据集和用户等信息。信息服务是元数据管理对外提供的基本服务。 数据访问。抽象出各种数据存储系统,形成一个抽象模型,为不同的数据存储系统提供统一的数据访问接口。 数据复制管理。提供远程访问需要的的局部数据拷贝,避免经常性大量数据在结点间的传输。 数据传输机制。当数据在广域网上移动、传输和复制过程时,提供可靠、高效的数据传输机制。 资源调度优化与远程执行。资源的调度优化和服务执行是网格计算的关键问题,它主要包括请求的调度优化、资源的调度优化和资源的服务执行。 安全技术。在广域网络上部署计算,安全保证至关重要。提供有效的安全设施,是网格计算的要求和特点。 SAS系统——构建数据网格的有力工具 实现数据网格有多种方式和手段,如Globus[4]或者分布式数据库系统如oracle 10g[5],但是我们选择了SAS系统,因为它既具有强大的数据管理、分析、展现功能,又具有强大的网络计算能力,因此更适合构建企业级的分布式应用。 SAS系统。SAS为“Statistical Analysis System”的缩写,意为统计分析系统。它集数据存取,管理,分析和展现于一体,为不同的应用领域提供了卓越的数据处理功能。它独特的“多硬件厂商结构”(MVA)支持多种硬件平台,在大,中,小与微型计算机和多种操作系统(如UNIX,MVS WINDOWS 和DOS等)下皆可运行。 SAS系统的特点和优势[6]。 统计分析功能强大。SAS提供了从基本统计数的计算到各种试验设计的方差分析,相关回归分析以及多变数分析的多种统计分析过程,是用于数据分析与决策支持的大型集成信息系统,统计分析功能是它的重要组成部分和核心功能。 提供全面的商业智能。其

文档评论(0)

lnainai_sj + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档