大数据分析分析.pptVIP

  1. 1、本文档共69页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
分布式文件系统 一个HDFS集群是由一个Namenode和一定数目的Datanodes组成。 非关系型数据库NoSQL 关系型数据库的局限性 难以满足高并发读写的需求 难以满足对海量数据高效率存储和访问的需求 难以满足对数据库高可扩展性和高可用性的需求 非关系型数据库NoSQL NoSQL 数据存储不需要固定的表结构,通常也不存在连接操作。在大数据存取上具备关系型数据库无法比拟的性能优势。 关系型数据库中的表都是存储一些格式化的数据结构,每个元组字段的组成都一样,即使不是每个元组都需要所有的字段,但数据库会为每个元组分配所有的字段。 非关系型数据库以键值对存储,它的结构不固定,每一个元组可以有不一样的字段,每个元组可以根据需要增加一些自己的键值对,这样就不会局限于固定的结构,可以减少一些时间和空间的开销。 非关系型数据库NoSQL 非关系型数据库NoSQL Bigtable的设计目的是可靠地处理PB级别的数据,并且能够部署到上千台机器上。Bigtable已经在超过60个Google的产品和项目上得到了应用,包括 Google Analytics、GoogleEarth等。 非关系型数据库NoSQL Bigtable是一个键值(key-value)映射。键有三维,分别是行键(row key)、列键(column key)和时间戳(timestamp),行键和列键都是字节串,时间戳是64位整型;而值是一个字节串。可以用 (row:string, column:string, time:int64)→string 来表示一条键值对记录。 非关系型数据库NoSQL Bigtable是一个键值(key-value)映射。键有三维,分别是行键(row key)、列键(column key)和时间戳(timestamp),行键和列键都是字节串,时间戳是64位整型;而值是一个字节串。可以用 (row:string, column:string, time:int64)→string 来表示一条键值对记录。 非关系型数据库NoSQL DynamoDB是Amazon提供的共享式数据库云服务,可用性和扩展性都很好,性能也不错:读写访问中99.9%的响应时间都在300ms内。DynamoDB通过服务器把所有的数据存储在固态硬盘(SSD)上的三个不同的区域。如果有更高的传输需求,DynamoDB也可以在后台添加更多的服务器。 非关系型数据库NoSQL Amazon DynamoDB把数据组织成表的形式,表中包含了项目(item),每个项目包含1个或多个属性。 ImageID = 1 Title = flower Tags = flower, jasmine, white Ratings = 3, 4, 2 一个属性是一个“名称-值”对(name-value pair),“名称”必须是一个字符串,“值”可以是一个字符串、数字、字符串集合或数字集合。下面是关于属性的一些实例: 非关系型数据库NoSQL Amazon DynamoDB把数据组织成表的形式,表中包含了项目(item),每个项目包含1个或多个属性(Attibute)。 项目由属性构成。必须指定一个属性作为主键,这个主键在DynamoDB表中唯一地标识一个项目。除了主键是必须的,其他项目属性是可选的。一个项目的属性没有顺序关系。某个项目中的属性和同一个表中的其他项目的属性也没有关系。 项目被存储在表中,表中的所有项目都具有相同的主键机制(primary key scheme)。每个项目都具备一个唯一的主键值。 非关系型数据库NoSQL Amazon DynamoDB把数据组织成表的形式,表中包含了项目(item),每个项目包含1个或多个属性(Attibute)。 非关系型数据库NoSQL DynamoDB并没有DB的概念,目前单用户最多能创建256个Table,同时DynamoDB 提供了11个API接口操作表和项目。 非关系型数据库NoSQL HBase – Hadoop Database,是一个分布式的、面向列的开源数据库,HBase在Hadoop之上提供了类似于Bigtable的能力,是Hadoop项目的子项目。 Cassandra是一套开源分布式NoSQL数据库系统。它最初由Facebook开发,用于储存收件箱等简单格式数据,集Google BigTable的数据模型与Amazon Dynamo的完全分布式的架构于一身。Facebook于2008年将 Cassandra 开源,此后被Digg、Twitter等知名Web 2.0网站所采纳,成为了一种流行的分布式结构化数据存储方案。 非关系型数据库NoSQL MongoDB是一个基于分布式文件存储的数据库。由C++语言编写,是一个介于

您可能关注的文档

文档评论(0)

四娘 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档