非结构化数据之归档存储技术.pdfVIP

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
非结构化数据之归档存储技术.pdf

非结构化数据之归档存储技术 朱立谷,孙志伟,郅斌,柳昊 (中国传媒大学计算机学院,100024) 一、引言 固定内容(Fixed Content)就是自创建以后不再更改并具有长时间保存价值的数据对 象,如办公office 文档、E-mail、电视新闻、医疗图片等。固定内容包含了与企业业务相 关的内容,可为企业提供价值的信息,也称之为参考数据(Reference Data)。 固定内容的数据对象大致可以分为以下三类: 1) 电子文档,主要包括电子图书、e-mail、网页、办公文档,以及诸如工程绘图的 CAD/CAM 等。 2) 数字图像,主要包括医学检查图像、图片、地震/油气藏/天文/卫星地球物理图像 信息等。 3) 连续媒体,主要包括音频、视频。 固定内容都是非结构化或半结构化的数据,与交易数据(数据库)相比,固定内容的 数量增长速度更高。IDC 调查显示, 全球数据量增长中75%来自固定内容数据。 同时,一些国家的法规对固定内容的归档存储提出严格要求。例如,2002 年 7 月 25 日,美国发布了 《萨班斯-奥克斯莱法案》(Sarbanes-Oxley Act,SOX),SOX 敦促企业 必须建立正确的IT 基础架构,选择适当的电子文档存储技术以便实现法规遵循;2006 年12 月1 日正式生效的新版《美国联邦民事诉讼规则》(US Federal Rules of Civil Procedure, FRCP)规定了电子文档的存储必须满足电子发现(e-discovery)与法规遵循等方面的具体 要求,让律师和法官能够更容易地对电子文档进行搜索。 在传统的网络存储和文件系统中存储的是二进制流文件,不允许对固定内容对象建立更 丰富的数据模型,因此,在传统的文件系统存储中要找到需要的内容非常困难。可见,用户 面临的挑战从数据存储变成了数据管理,帮助用户迅速找到需要的信息成为存储系统一个新 的功能需求。 二、文件存储与搜索技术现状与研究进展 为了实现对数量庞大的数字内容进行高效地存储与搜索,学术界和企业界从网络存储架 构和文件搜索技术两个方面进行了大量的研究。 2.1 网络存储架构的研究 由于基于块(SAN)和文件(NAS)的网络存储不能同时满足高性能和数据共享的需求, 提出了对象存储的概念。对象存储能有效结合SAN 和NAS 系统的优点,通过数据和元数据的 分离以简化管理,支持直接访问磁盘以提高性能,可同时满足高性能和数据共享的需求。在 面向对象的存储的研究和开发中,有两个分支引起了学术界和工业界的广泛关注和重视:其 中一个分支是智能存储,如 NASD、LUSTRE 等;另外一个分支则是基于内容的存储,如 CAS(Content Addressable Storage,内容寻址存储)。 在 CAS 中,传统的文件名被一个根据文件内容通过某种特定算法计算出来的字符串所 取代,它是一个表征该数据对象的全局惟一的数字标识符,或称为数字指纹,一种常用的方 法是根据数据内容计算出固定长度的Hash 来代替文件名。CAS 维持一个描述组成原数据对 象的各个数据块的数字标识符清单,它为具体应用提供可用的 CAS 数据块来重组原数据对 象。对于网络存储系统的客户端而言,只需使用这一数字标识符来实现对内容的存取。 由于CAS 是基于对象的接口,在数据对象的存储过程中,它可以达到块接口的速度和 效率,同时,在数据对象共享和管理之中,它又能够有文件接口的便利。因此CAS 对于固定 内容数据的存储,具有很高的性能。 CAS 将应用和内容的物理位置完全隔离,可以自动检测数据对象的变化,实时保护数 据对象不被恶意的修改,维持数据对象的完整性。同时,数据对象的数字指纹是从内容得到 的全球唯一的ID,它可以用于WORM (Write Only Read Many)和内容认证。 除此之外,CAS 技术提供了单一实例存储,可消除数据冗余,提高存储空间效率。由于 相同内容的数据对象其数字指纹是一致的,因此,在同一CAS 系统中相同内容的文件将只允 许存在非策略性的一个存储实例。 由于CAS 技术的上述特点使之在文件归档和法规遵循等领域所具有的独特优势,特别 适合非结构和半结构化数据的长久保持。 但目前主要的CAS 产品使用API 来实现存储,必须在API 基础上开发应用程序,或

文档评论(0)

docindoc + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档