基于云技术的廉价冗余海量数据存储资料.pptVIP

基于云技术的廉价冗余海量数据存储资料.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
kCloudStorage - 基于云技术的廉价冗余天文海量数据存储 1)研究背景 2)当前存储技术的局限 3)天文需求的描述 4)云存储的关键技术 5)可行性与前期实验结果 SUMMARY Background 数据的存储,是天文信息学的基础。 海量数据的保存,本质上并没有很好的解决。 当前常用的技术 DAS, NAS , SAN DAS – 直接存储 NAS – 网络附加存储 SAN – 存储区域网络 DAS vs NAS architecture FC Clients Direct Attached Storage Application Servers Win2k Linux Unix Unix Tape FC Linux Win2k SCSI LAN Application Servers NAS Appliances or NAS Head Ends Generic Generic Win2k Linux Unix LAN SAN architecture Storage is accessed at block level not at file level Very high performances Storage is shared Good management tools Interoperability issues Storage Area Network (SAN) Database Servers Block Storage Devices Fibre Channel SAN Clients LAN 天文数据特点 数据特点 1、存在变长大数据段,例如天文观测图片,数据规格有限 拆分变长数据为定长KV 2、数据总量大,PB级数据量 分布式KV系统 3、更改可能性小 降低分布式事务的严格性,采用不删除 ,更改数据重新分配储存空间的方式规避储存器碎片问题,避免处理空间整理问题,并且保持数据局部顺序性,有利于预读 天文数据需要存储系统 既需要文件系统特性 也有关系数据库的查询需求 查询需求 1、需要范围查询,例如按照精度纬度查询 B+树实现索引 如果存储按照经纬有序可以采用位图索引 2、顺序存储,顺序读取可能性大 可以采取预读 3、近几年实时处理的要求明显增加 4、有大量的数据导出需求!!!!! 关系型数据库存储天文数据时的问题 问题 1、热备份对性能的影响以及热备的不一致性 2、大数据量 3、磁盘限制导致的QPS瓶颈(SSD) 优雅解决2,3问题往往通过引入高端储存,从而带来高成本 改变 当不优雅的分库分表成为用户解决大数据量的首选办法的时候数据库的革命开始了 如何改变Google引领方向, 放弃高端设备,使用Commodity Device 分布式数据库是必然选择 如何选择索引 如何选择储存 如何实现事务 理想的天文数字库 1、海量 2、分布 3、事务 4、确保一致性 5、可检索查询 6、高速、线速读写 7、随意更换设备 8、任意导出 9、便宜 为天文数据设计量体裁衣 三个技术点 储存(定长,变长记录) 索引(B+,Hash) 事务(行锁,表锁) 云存储的现状 Amazon Amazon的云服务主要包括弹性计算云(EC2)、简单存储服务(S3)、简单数据库服务(SimpleDB)。EC2服务偏向计算,S3服务偏向存储,提供IaaS级别的服务,SImpleDB偏向应用,提供PaaS和SaaS级别的服务。 Google Google当数最大的云计算的使用者。Google搜索引擎就建立在分布在200多个地点、超过100万台服务器的支撑之上,这些设施的数量正在迅猛增长。Google地球、地图、Gmail、Docs等也同样使用了这些基础设施。 三篇重要论文基本描述了这种集群的结构 ”WEB SEARCH FOR A PLANET:THE GOOGLE CLUSTER ARCHITECTURE” “The Google File System” “The Chubby lock service for loosely-coupled distributed systems” 淘宝 淘宝具有一个模仿gfs构架的tfs系统,以及配套的cdn网络形成了国内较大规模的云存储平台,主要提供商家宣传图片的存储,淘宝直接针对这种储存服务收费。 Tencent 同样基于gfs构架,为整个腾讯公司提供文件存储服务 什么是云存储 是指通过集群应用、网格技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统 文件系统存储和数据存储的边界正在缩小 开源的云存储系统和KV数据库 ------

文档评论(0)

文档资料 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档