海量非结构化数据存储问题初探.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
海量非结构化数据存储问题初探

海量非结构化数据存储问题初探以企业档案系统中的数据信息为研究对象有两类:一类有统一的结构,可以用数字或文字来描述,这类信息具有类似的层次或网络结构,称之为结构化数据;另一类信息则无法用数字或者统一的结构表示,例如扫描图像、传真、照片、计算机生成的报告、字处理文档、电子表格、演示文稿、语音和视频片段等,这些即为非结构化数据。 电力企业非结构化数据存储及管理现状 1 电力企业档案非结构化数据的存储特点 与传统档案的馆藏资源相比,数字档案馆信息资源有其自身的特点。从存储的角度来考虑,数字档案馆馆藏数字资源具有以下特点: (1)存储容量大。数字档案馆的各种数字化信息如流媒体、历史档案等的增长也将一直持续下去。存储信息的度量单位由MB,GB向TB,PB转变,其存储的数据总量达到了海量规模 (2)媒体形式多。数字档案馆馆藏包括数字化的文书、图纸、实物、照片、电子出版物、互联网内容、政府文件等各种各样的人文与科学数据资源。其存储媒介已不限于印刷体,它包含文本、声音、图像、影视等多种媒体形式,数据类型复杂 (3)快速增长。近几年来,档案馆数字资源呈几何级数增长,数字档案和全文数据库是数字档案馆藏资源的重要增长点。如各企业正在进行的历史档案的数字化工作,将会使数字馆藏迅猛增长 2 电力企业非结构化数据存储管理的现状 目前电力企业对非结构化数据的存储方式有如下几种方式: (1)直接存储在结构化数据库的BLOB字段中。目前电力企业大部分的应用系统中的非结构化数据,如报告、报表、图片等都是以二进制的格式保存在结构化数据库的BLOB字段中。保存在BLOB字段中的好处是调用文件的速度很快,维护和管理简单,与其他应用系统没有任何关联;缺点一是由于非结构化数据文件大,在数据量不断增大的情况下,会使得结构化数据库迅速膨胀,导致数据库性能下降,进而影响整个应用系统的性能;二是由于各个应用系统相对封闭和独立,其他应用无法共享相关文档资料 (2)以FTP上传的方式保存到文件服务器中。以这种方式保存非结构化数据的应用较少,比较典型的应用有数字档案馆、知识管理和网站 (3)通过文件系统直接存储在文件服务器中。对于大多数没有应用系统的非结构化数据,如信息管理部门常用的工具软件、开发的应用系统软件、源代码、开发过程文档、技术研究资料等,新闻中心的素材、资料等通常都是将文件直接存储到文件服务器中 海量非结构化数据存储整合 在数字档案馆建设过程中发现,企业各类业务系统都有数字资源的归档要求。面对各业务系统各自为战的存储系统,许多企业都正在评估和选择实现信息资源整合的最佳途径,而其中绝大多数所瞄准的都是基于文件结构使用SAN或NAS进行整合的方式 1 数据整合的驱动因素 进行存储系统整合的根本目的是为了减少存储资源的数量。目前文件服务系统的规模会随着新增企业应用的部署和新的扩展需求而不断增长,最终会形成一个拥有越来越多文件服务器的庞大的文件服务环境。这种复杂的文件服务环境是不利于业务系统数字资源的管理、归档的。下面对非结构化数据存储整合的驱动因素逐一论述 降低管理成本 系统整合所带来的一个好处就是能够减少企业的IT管理工作。随着需要管理的存储设备的减少,处理这些管理任务所需要用到的人力资源也可以相应地减少。而如果任随这些系统不断增长,随着时间的推移,最终将积累起大量的文件服务器资源,这些资源的维护对IT人员来说将是一个极大的负担 经济利益 存储系统整合的实现同样会对企业的经济产生极大的正面促进作用。当企业将多个系统整合成一个之后,就能够节省下多余的软件许可费用和磁盘空间,得以节省大量的IT成本。更重要的是,IT管理员花费在管理这些系统进行软硬件更新和解决相关问题上的时间也能够得到极大的节省 资产保护 实现存储系统整合的另一个基本的驱动因素就是要更好地进行企业资产的保护。备份机制是否为数据提供了足够的保护?有没有合适的安全控制?如果这些过程都能够从中央来统一进行管理和控制,那么以前所必须要进行的备份次数以及系统的安全控制点都能够大大减少,企业就将有机会确保企业资产都得到了完善的保护 2 实现整合的不同方式 目前在整合多个存储系统时有多种不同的方式可供选择。一种方式是企业购买一个大型NAS设备并淘汰掉其他小型的存储系统,在整个企业范围内只存在一个存储系统;另一种方式是采用虚拟数据中心的方式,也就是说其他已有的小型存储设备都隐藏在一个中央存储系统之后或分散在不同的物理地点,所有的资源实际上和以往一样都仍然存在,但只会有一个单一的数据界面需要管理 文件服务器整合 存储系统整合的第一种类型是针对那些被部署用于解决某个特定应用需求的单独的文件服务器。在原有的基础架

文档评论(0)

docman126 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:7042123103000003

1亿VIP精品文档

相关文档