第三章大数据导论大数据管理.pdfVIP

  • 80
  • 0
  • 约1.9万字
  • 约 47页
  • 2021-02-18 发布于四川
  • 举报
大数据管理 王建民 清华大学软件学院 大数据系统软件 工程实验室 2018.7 目录 01 数据管理概述 02 关系数据库 03 分布式文件系统 04 新型数据管理与查询系统 PART 1 数据管理概述 本章重点介绍数据存储与管理技术的概念与发展过程,选 择经典的关系数据库技术以及大数据时代的分布式文件系统技 术、NoSQL与Sql on Hadoop技术新型大数据存储与查询技术进 行介绍。 数据管理的内涵  数据管理技术 数据管理技术是指对数据进行分类、编码、存储、索引和查询,是大数据 处理流程中的关键技术,负责数据从落地存储(写)到查询检索(读)的 系统。数据管理技术从最早人们使用文件管理数据,到数据库、数据仓库技术 的出现与成熟,再到大数据时代NoSQL等新型数据管理系统的涌现,一直是数 据领域研究和工程领域的热点。  数据库 数据库(Database)是按照数据结构来组织、存储和管理数据的建立在计算 机存储设备上的仓库。简单来说是本身可视为电子化的文件柜,用户可以对文 件中的数据进行新增、截取、更新、删除等操作。严格来说,数据库是长期储 存在计算机内、有组织的、可共享的数据集合。 数据管理历史  关系数据库 上世纪70年代,IBM公司的E.F.Codd开创了关系数据库理论,80年代随着事务处理 模型的完善,关系数据管理在学术届和工业界取得主导地位,并一直保持到今天。关 系数据库的 是将数据保存在由行和列组成的简单表中,而不是将数据保存在一个 层次结构中。Codd开创了关系数据库和数据规范化理论研究,获得了1981年的图灵奖, 关系数据库也很快成为数据库市场的主流。  新型数据管理与查询系统 2010年前后, 谷歌公司为满足搜索业务的需求,推出了以分布式文件系统GFS (Google File System)、分布式计算框架MapReduce、列族数据库BigTable为代表的 新型数据管理与分布式计算技术。Doug Cutting领衔的技术社区研发了对应的开源版 本,在Apache开源社区推出,形成了Hadoop大数据技术生态,不断迭代发展出一系列 大数据时代的新型数据管理技术,例如面向内存计算的Spark大数据处理软件栈, MangoDB、Cassandra等各类型NoSQL数据库,Impala、SparkSQL等分布式数据查询技术 (Sql on Hadoop)。 PART 2 关系数据库 关系数据库建立在关系数据模型之上,是主要用来存储结构 化数据并支持数据的插入、查询、更新、删除等操作的数据库。 01 关系模型 关系数据模型是以集合论中的关系概念为基础发展起来的。关系数据 模型中无论是实体还是实体间的联系均由单一的数据结构——关系来表 示。关系数据模型中对的数据操作通常由关系代数和关系演算两种抽象 操作语言来完成,此外关系数据模型中还通过实体完整性、参照完整性 和自定义完整性来确保数据的完整一致 关系数据模型的基本数据结构就是关系(Relation),一个关系对应 着一个二维表,二维表的名字就是关系名。 关系名 表3-1 学生表 学号 姓名 性别 年龄 图书证号 所在系 S3001 张明 男 22 外语 S3002 李静

文档评论(0)

1亿VIP精品文档

相关文档