大数据要点详解.pptVIP

  • 4
  • 0
  • 约2.16万字
  • 约 69页
  • 2016-11-11 发布于湖北
  • 举报
分布式文件系统 一个HDFS集群是由一个Namenode和一定数目的Datanodes组成。 非关系型数据库NoSQL 关系型数据库的局限性 难以满足高并发读写的需求 难以满足对海量数据高效率存储和访问的需求 难以满足对数据库高可扩展性和高可用性的需求 非关系型数据库NoSQL NoSQL 数据存储不需要固定的表结构,通常也不存在连接操作。在大数据存取上具备关系型数据库无法比拟的性能优势。 关系型数据库中的表都是存储一些格式化的数据结构,每个元组字段的组成都一样,即使不是每个元组都需要所有的字段,但数据库会为每个元组分配所有的字段。 非关系型数据库以键值对存储,它的结构不固定,每一个元组可以有不一样的字段,每个元组可以根据需要增加一些自己的键值对,这样就不会局限于固定的结构,可以减少一些时间和空间的开销。 非关系型数据库NoSQL 非关系型数据库NoSQL Bigtable的设计目的是可靠地处理PB级别的数据,并且能够部署到上千台机器上。Bigtable已经在超过60个Google的产品和项目上得到了应用,包括 Google Analytics、GoogleEarth等。 非关系型数据库NoSQL Bigtable是一个键值(key-value)映射。键有三维,分别是行键(row key)、列键(column key)和时间戳(timestamp),行键和列键都是字节串,时间戳是64位整型;而值是一个字节串。可以用 (row:string, column:string, time:int64)→string 来表示一条键值对记录。 非关系型数据库NoSQL Bigtable是一个键值(key-value)映射。键有三维,分别是行键(row key)、列键(column key)和时间戳(timestamp),行键和列键都是字节串,时间戳是64位整型;而值是一个字节串。可以用 (row:string, column:string, time:int64)→string 来表示一条键值对记录。 非关系型数据库NoSQL DynamoDB是Amazon提供的共享式数据库云服务,可用性和扩展性都很好,性能也不错:读写访问中99.9%的响应时间都在300ms内。DynamoDB通过服务器把所有的数据存储在固态硬盘(SSD)上的三个不同的区域。如果有更高的传输需求,DynamoDB也可以在后台添加更多的服务器。 非关系型数据库NoSQL Amazon DynamoDB把数据组织成表的形式,表中包含了项目(item),每个项目包含1个或多个属性。 ImageID = 1 Title = flower Tags = flower, jasmine, white Ratings = 3, 4, 2 一个属性是一个“名称-值”对(name-value pair),“名称”必须是一个字符串,“值”可以是一个字符串、数字、字符串集合或数字集合。下面是关于属性的一些实例: 非关系型数据库NoSQL Amazon DynamoDB把数据组织成表的形式,表中包含了项目(item),每个项目包含1个或多个属性(Attibute)。 项目由属性构成。必须指定一个属性作为主键,这个主键在DynamoDB表中唯一地标识一个项目。除了主键是必须的,其他项目属性是可选的。一个项目的属性没有顺序关系。某个项目中的属性和同一个表中的其他项目的属性也没有关系。 项目被存储在表中,表中的所有项目都具有相同的主键机制(primary key scheme)。每个项目都具备一个唯一的主键值。 非关系型数据库NoSQL Amazon DynamoDB把数据组织成表的形式,表中包含了项目(item),每个项目包含1个或多个属性(Attibute)。 非关系型数据库NoSQL DynamoDB并没有DB的概念,目前单用户最多能创建256个Table,同时DynamoDB 提供了11个API接口操作表和项目。 非关系型数据库NoSQL HBase – Hadoop Database,是一个分布式的、面向列的开源数据库,HBase在Hadoop之上提供了类似于Bigtable的能力,是Hadoop项目的子项目。 Cassandra是一套开源分布式NoSQL数据库系统。它最初由Facebook开发,用于储存收件箱等简单格式数据,集Google BigTable的数据模型与Amazon Dynamo的完全分布式的架构于一身。Facebook于2008年将 Cassandra 开源,此后被Digg、Twitter等知名Web 2.0网站所采纳,成为了一种流行的分布式结构化数据存储方案。 非关系型数据库NoSQL MongoDB是一个基于分布式文件存储的数据库。由C++语言编写,是一个介于

文档评论(0)

1亿VIP精品文档

相关文档