- 1、本文档共19页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
海量数据存储基础
海量数据存储基础
原⽂出处:http://weibo .com/p/ 100 1643874615465508614
作者:毕建坤@bijiankun
微博平台研发作为微博的底层数据及业务⽀撑部门,已 历了5年的发展历程。伴
随着从数据及业务暴发式增长,我们在海量数据存储⽅⾯遭遇了诸多挑战,与此同时
也伴随着丰富 验的积累。
本次新兵训练营,受众在于应届毕业⽣,⽬的在于让新同学系统化并且有针对性的
了解平台的核⼼技术及核⼼业务,以使新同学在新兵训练营结束后,能够对平台的底
层架构与业务有⼀定的了解。
本⽂主要⾯向新同学介绍平台的核⼼技术之⼀——海量数据存储,主要介绍在海量
数据存储在⼤规模分布式系统下的架构变迁与设计。
课程⼤纲:
⼀、课程⽬标
⼆、存储服务概述
三、My QL与My QL分布式架构设计
四、Redis与Redis分布式架构设计
五、思考与讨论
⼀、课程⽬标
1. 了解存储服务概况,以及RDBM 及No QL 的差异
2. 理解My QL 、Redis、HBase基本实现机制、特性、适⽤场景
3. 理解⼏种存储产品的⼤规模分布式服务⽅案
4 . 学会使⽤平台的My QL 、Redis client组件
5. 理解对于My QL 、Redis分布式系统设计想要注意的问题
6. 了解平台⼏种典型案例
7 . 理解⼏种存储产品在平台的定制修改与名词术语
⼆、存储服务概述
1. 关系型数据库是基于实体关系模型 (Entity-Relationship Model )的数据服务,具备
以下特点。
适合存储结构化数据
查询语⾔ QL ,insert delete update select
主流关系型数据库多是持久化存储系统,系统性能与机器性能相关性较⼤
⼏类主流的 关系型数据库
My QL
Oracle
DB2
QL erver
性能
局限于服务器性能,与其是磁盘性能
局限于数据复杂度
常见的 D磁盘服务器,单机读取性能可达万级/s
⼤型互联⽹服务⼤多采⽤My QL进⾏作为关系型数据库,微博平台的核⼼业务(如
微博内容⽤户微博列表)也同样如此
本次培训也会着重介绍My QL及其分布式架构⽅案。
2. No QL(Not only QL)数据库,泛指⾮关系型的数据库,兴起的契机在于传统关系
型数据库应对⼤规模、⾼并发的能⼒有限,⽽No QL 的普遍性能优势能够弥补关系型
数据库在这⽅⾯的不⾜
存储⾮结构化数据、半结构化数据
性能
业界使⽤的No QL多为内存集中型服务,受限于I/O及⽹络,通常请求响应时间在
毫秒级别,单机QP 在10万级别(与数据⼤⼩及存储复杂度相关)
常见的⼏类No QL产品
K-V(Memcached、Redis) ,这类No QL产品在互联⽹业内应⽤范围最⼴。
Memcached提供具备LRU淘汰策略的K-V 内存存储;⽽Redis提供⽀持复杂结构
(List 、Hash等)的内存及持久化存储
Column(HBase 、Cassandra) ,HBase是基于列式存储的分布式数据库集群系统
Document(MongoDb)
Graph(Neo4J) ,最庞⼤、最复杂的Graph模型是⼈的关系,理论上⽤图描述并且
⽤Graph数据库存储最合适不过,不过⽬前的数据规模、系统性能仍然有待优化
web2.0 时代,No QL产品在互联⽹⾏业中的重要性随着互联⽹及移动互联⽹的发展
⽽与⽇剧增 ⼤型互联⽹应⽤,为应对⼤规模、⾼并发访问,⼤多都引⼊了No QL
产品,其中Memcached、Redis 以其⾼成熟度、⾼性能、⾼稳定性⽽被⼴泛使⽤。微博
平
文档评论(0)