大数据时代如何构建高性能数据库平台.docxVIP

大数据时代如何构建高性能数据库平台.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
PAGE 1 PAGE 1 大数据时代如何构建高性能数据库平台 在数据爆炸的时代,给众多IT从业人员带来了相当大的困扰—伴随着大数据分析,商业智能的发展,数据量呈现指数增长,传统数据处理系统已不堪重负。在这样的背景下,“数据库平台的构建”渐渐成为一个备受关注的话题。 在数据爆炸的时代,给众多IT从业人员带来了相当大的困扰—伴随着大数据分析,商业智能的发展,数据量呈现指数增长,传统数据处理系统已不堪重负。在这样的背景下,“数据库平台的构建”渐渐成为一个备受关注的话题。 影响数据库性能的三要素 对于数据库系统而言,绝大多数状况下影响数据库性能的三个要素是:数据运算能力、数据读写时延和数据吞吐带宽,简称计算、时延、吞吐。计算指的是CPU的运算能力,时延是数据从存储介质跑到CPU所需的时间长短,吞吐则是数据从存储介质到CPU的道路宽度。一般状况下,关注计算和时延是比较多的,但是在数据量越来越多的状况下,吞吐也成为影响数据库性能的重要因素。假如吞吐带宽不够,会造成计算等待队列的增加,CPU占用率虚高不下。这种状况下,即使增加再多的计算资源也于事无补,相当于千军万马挤独木桥,马再好也是枉然。一个高性能的数据库平台,一定是计算、时延、吞吐三方面的能力齐头并进,相互匹配。 计算能力由CPU主频和核数打算,实践中看CPU占用率就能够大致确定CPU配置是否合适。时延的指标很简洁,时间是衡量时延的唯一指标。吞吐量则是通过每秒在I/O流中传输的数据总量来衡量的。 从三要素到三方法 明确了影响性能的要素后,就可以着手转变各要素来提升数据库平台的性能。 1.计算能力:x86化的今日,提升计算能力就是:增加CPU内核数量或升级CPU主频。 2.时延能力:加快数据从存储介质到CPU的速度,即提升数据读写时延,从以下三方面努力: a)降低存储介质的读写时延:使用电子寻址的Flash颗粒来替换旋转的机械磁头,是降低存储介质读写时延最有效的方法。实践中可结合数据吞吐量来确定是选择SAS总线上的SSD盘还是选择PCIE总线上的Flash卡。 b)降低网络的传送时延:网络时延则可以通过InfiniBand网络来解决,留意不要选择IPoIB,而是要使用RDS,相比传统UDP协议,网络延迟至少减一半。通过SRP协议,利用RDMA技术在网络层面传送SCSI指令和数据,使得数据库节点能够像操作本地SCSI设备一样读写远程的数据,对于时延的降低,不是FC网络能够企及的。 c)扩大存储层的数据缓存大小:存储层的数据缓存大小对时延也至关重要,假如有尽可能多的数据读写在缓存中进行,就避免了数据下盘。缓存的大小以及缓存算法都对缓存命中率有直接的影响,这一点往往被忽视。除了单点缓存之外,分布式缓存技术也是特别重要的,通过分布式缓存技术,可以避免单点缓存的局限性,扩大缓存的全局能力,增加缓存规模,提高缓存命中率。 3.吞吐能力:拓宽数据通路的方法有两种:使用高速InfiniBand网络、使用分布式存储。前者比较简单想到,实施也简洁,基于FDR的56Gb/sInfiniBand解决方案可实现每秒1.37亿条消息的信息通信速率,在16个计算节点上,性能表现比QDR40Gb/sInfiniBand高出20%-30%,而与FC、万兆和4万兆以太网相比,性能更是领先了100%到300%,是最高效的计算和存储互联方案。对于后者,分布式存储,其好处在于不将数据集中存放在某几块存储介质上,而是将数据全部打散存放在多个存储节点的很多个介质上,这样避免在大规模数据并发读写访问时,存储介质的单点能力成为数据读写的瓶颈,通过分布式的并发能力来提升数据读写吞吐能力。留意的是,一定要使用高性能低时延的分布式块存储,分布式文件存储是无法满意性能要求的。 通过计算、时延、吞吐的三管齐下,通过使用SSD存储介质、InfiniBand网络交换以及分布式存储,数据库平台的性能将得到极大提升。 将来为是何种模样 高性能数据库系统将来向着内存化、云化的方向在不断发展。SAP的HANA内存数据库,Oracle12c的内存特性,GemFire的分布式内存数据缓存,以及Spark的内存并行计算,都在昭示着内存化的将来方向,其本质还是通过内存的高速读写与高速总线来解决时延和吞吐问题。 数据库的云化,即DBaaS(数据库即服务),其核心就是整合IT基础设施中的硬软件,实现简洁化、标准化和敏捷性,提升可用性以及安全保障,同时降低成本。当然,云化在性能和QoS方面也对IT基础设施提出了更多增加性的挑战。

文档评论(0)

认证主体菲亚企业管理咨询服务(天津自贸试验区)有限公司
IP属地天津
统一社会信用代码/组织机构代码
91120118MA05M78NXX

1亿VIP精品文档

相关文档