数据科学导论教学课件(共8章)-第5章大数据存储.pptxVIP

数据科学导论教学课件(共8章)-第5章大数据存储.pptx

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
普通高等教育人工智能与大数据系列数据科学论导Chapter 5大数据存储020301集中与分布式存储目录NoSQL数据库CONTENTS数据仓库与OLAP集中式存储集中式存储通常需要建立一个庞大的数据库以实现各种信息的存储;它的周围是各种功能模块,主要功能是信息进行录入、修改、查询、删除等操作。此方案构建了统一、整体部署的存储系统框架。能够充分体现简单易用性、高可靠性、高性能及管理便捷等优势。首先保证了数据的集中存储和管理,提高存储的利用效率和业务系统的可靠性水平,满足当前业务数据对存储的需求。其次,为客户做好了数据处理的基础工作,为实现数据的异地保护和业务系统的容灾,做好了充分的技术准备,有利于用户整体业务系统的扩展;再次,整体方案有效利用了客户原有资源,并且简单易用,对降低信息系统的总成本、提高投资的回报率具有积极作用。存在横向扩展性差、价格昂贵、运维成本高、数据连通困难、容易形成数据孤岛等不足。分布式存储分布式存储系统,指将数据分散存储在多台独立的设备上,如图5-2所示。相比之下,集中式架构中的存储服务器是性能瓶颈,也是系统可靠性和数据安全性的薄弱之处,不能满足大规模存储应用的需要。而分布式存储系统采用高可扩展的系统结构,可充分利用额外服务器来缓解存储负荷,有效解决了系统可靠性、可用性和存取效率差的问题。NoSQL数据库非结构化数据是数据结构不规则或不完整,没有预定义的数据模型(schema),不适合用传统的二维逻辑表来表现的数据。传统数据库无法有效应对。关系数据库管理系统(Relational Database Management System,RDBMS)大多为本地存储或共享存储,随着业务量不断增加,容量渐渐成为瓶颈。此时数据库管理员(Database Administrator,DBA)会通过多次的库表sharing,以此来缓解容量问题。然而,大量的分库分表,不仅耗时费力,还使得业务访问数据库的路由逻辑变得复杂。除此之外,RDBMS伸缩性比较差,集群扩容、缩容成本较高,且不能满足分布式事务的要求。最后,这些数据库无法应对非结构化数据的个性化存取要求。非结构化数据库(NoSQL)应运而生,其典型代表有Hbase、Redis、MongoDB、Cassandra等。这类数据库解决了RDBMS伸缩性差的问题,集群容量扩容变得容易;但是由于存储方式的变革,对结构化查询的支持受到限制,如只能满足部分分布式事务等。MongoDBMongoDB是其同名公司(原名10gen)开发的一款以高性能和高可扩展为特征的开源软件,它是面向文档的NoSQL数据库。其优势有:介于关系数据库和非关系数据库之间,是非关系数据库当中功能最丰富,最像关系数据库的,因此学习成本低。支持的数据结构非常松散,类似JSON的BSON(Binary Serialized Document Format)格式,因此可以存储复杂的数据类型。支持的查询语言功能强大,其语法类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的绝大部分功能。高性能、高可用的,支持完全索引、复制与故障恢复,而自动分片技术使它易于扩展。面向集合的、模式自由的文档型数据库,能够以键值对的形式支持非结构化、半结构化数据的存取要求。单机版MongoDB部署:1)下载压缩包,解压或安装。2)启动服务mongod并指定数据文件存放路径,默认端口27017。3)运行客户端mongo。HBaseHBase是Apache的Hadoop项目的子项目。它是一个分布式的、面向列的开源数据库,也是一个结构化数据的分布式存储系统。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase不同于关系数据库,它适合非结构化数据的存储的数据库,利用它可在廉价PC Server上搭建起大规模结构化存储集群。容量大、面向列和稀疏是其三大优势。容量大:HBase中的表容量较大,一个普通表能够容纳上亿条记录、上百万个属性列;其中的行键可以是最大长度不超过64KB的任意字符串,并按照字典序存储。面向列:HBase面向列实现存储和权限控制,列或列族独立检索。每个列属于某个列族,由行和列确定的存储单元称为元素,每个元素保存了同一份数据的多个版本,由时间戳来标识区分。行键是数据行在表里的唯一标识,并作为检索记录的主键。稀疏:HBase能够有效应对不完整数据集的存储与查询问题。由于HBase按列存储,记录中的缺失值并不占用存储空间;相比关系数据库的行式,压缩了存储空间,提升了存取效率。An Example of HBase行键时间戳列族Contents列族Asdju“com.www”T9testwwwT8testwww

文档评论(0)

139****1983 + 关注
实名认证
文档贡献者

副教授、一级建造师持证人

一线教师。

领域认证该用户于2023年06月21日上传了副教授、一级建造师

1亿VIP精品文档

相关文档