- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
云数据管理技术与挑战
中国人民大学
主要内容
云计算与云数据管理概述
各大公司的云数据管理技术
人民大学研究团队的工作
云数据管理的研究挑战
2
云数据管理的新思维
云数据管理准则(1)
• Partition Everything and key-value storage
• 切分万物以治之
•数据库的第一范式无法满足
云数据管理准则(2 )
• Embrace Inconsistency
• 容不同乃成大同
•数据库的ACID 的属性无法满足
云数据管理准则(3 )
• Backup everything with three copies
• 狡兔三窟方高枕
• 每个数据都有三个备份,达到99.999999%
的保障度
云数据管理准则(4 )
• Scalable and high performance
•运筹沧海量兼容
• 提供一个可伸缩的,处理和分析海量数据的
平台
拨云见日
•
•
•
•
主要内容
云计算与云数据管理概述
各大公司的云数据管理技术
人民大学研究团队的工作
云数据管理的研究挑战
11
主要内容
Google 文件系统(GFS)
• 适用于大规模数据密集型应用程序的可扩
展分布式文件系统
• 多个部署GFS的集群已经建成
• 目前最大的集群为:
– 10000多个存储节点
– 300+PB 的存储容量
– 可供不同机器上的上百用户同时读取
介绍:观察1
• 控件的故障时常发生
– 系统集成了实时监控、错误检测、容错性和自
动恢复等功能
• 超大文件(与普通文件相比)
– GB大小的文件很正常
介绍:观察2
• 大部分文件修改都是添加新的内容
– 需要考虑优化性能和保证原子性
• 协同设计应用程序和API有利于增加整个系
统的灵活性
设计
• 集群包含一个master和多个
chunkservers,并且可供多个用户读取
GAE Web应用
Google App Engine
应用程序运行
分布式存储服务 应用开发套件 管理控制台
时环境
GAE Web服务基础设施
分布式存储服务
• GAE提供的分布式存储服务基于BigTable
技术
• 通过Java JDO/JPA接口或Python数据库标
准接口访问和操作数据库
• 优势:成本低、支持伸缩、并发性好、易
管理
• 采用乐观的并发控制
应用程序运行时环境
• GAE的应用程序运行时环境是一个可伸缩
的Web程序运行平台
• 目前支持Python和Java
• 可以使用Google提供的丰富的应用服务,
如分布式存储服务、网页抓取、邮件、图
像、Google账户等
云端应用
• Google Docs是基于Web 的文字处理和电子
表格程序,支持在线协作、文档恢复、文
档检索
• Gmail是有效的电子邮件工具,支持即时消
文档评论(0)