- 80
- 0
- 约1.9万字
- 约 47页
- 2021-02-18 发布于四川
- 举报
大数据管理
王建民
清华大学软件学院
大数据系统软件 工程实验室
2018.7
目录
01 数据管理概述
02 关系数据库
03 分布式文件系统
04 新型数据管理与查询系统
PART 1 数据管理概述
本章重点介绍数据存储与管理技术的概念与发展过程,选
择经典的关系数据库技术以及大数据时代的分布式文件系统技
术、NoSQL与Sql on Hadoop技术新型大数据存储与查询技术进
行介绍。
数据管理的内涵
数据管理技术
数据管理技术是指对数据进行分类、编码、存储、索引和查询,是大数据
处理流程中的关键技术,负责数据从落地存储(写)到查询检索(读)的
系统。数据管理技术从最早人们使用文件管理数据,到数据库、数据仓库技术
的出现与成熟,再到大数据时代NoSQL等新型数据管理系统的涌现,一直是数
据领域研究和工程领域的热点。
数据库
数据库(Database)是按照数据结构来组织、存储和管理数据的建立在计算
机存储设备上的仓库。简单来说是本身可视为电子化的文件柜,用户可以对文
件中的数据进行新增、截取、更新、删除等操作。严格来说,数据库是长期储
存在计算机内、有组织的、可共享的数据集合。
数据管理历史
关系数据库
上世纪70年代,IBM公司的E.F.Codd开创了关系数据库理论,80年代随着事务处理
模型的完善,关系数据管理在学术届和工业界取得主导地位,并一直保持到今天。关
系数据库的 是将数据保存在由行和列组成的简单表中,而不是将数据保存在一个
层次结构中。Codd开创了关系数据库和数据规范化理论研究,获得了1981年的图灵奖,
关系数据库也很快成为数据库市场的主流。
新型数据管理与查询系统
2010年前后, 谷歌公司为满足搜索业务的需求,推出了以分布式文件系统GFS
(Google File System)、分布式计算框架MapReduce、列族数据库BigTable为代表的
新型数据管理与分布式计算技术。Doug Cutting领衔的技术社区研发了对应的开源版
本,在Apache开源社区推出,形成了Hadoop大数据技术生态,不断迭代发展出一系列
大数据时代的新型数据管理技术,例如面向内存计算的Spark大数据处理软件栈,
MangoDB、Cassandra等各类型NoSQL数据库,Impala、SparkSQL等分布式数据查询技术
(Sql on Hadoop)。
PART 2 关系数据库
关系数据库建立在关系数据模型之上,是主要用来存储结构
化数据并支持数据的插入、查询、更新、删除等操作的数据库。
01 关系模型
关系数据模型是以集合论中的关系概念为基础发展起来的。关系数据
模型中无论是实体还是实体间的联系均由单一的数据结构——关系来表
示。关系数据模型中对的数据操作通常由关系代数和关系演算两种抽象
操作语言来完成,此外关系数据模型中还通过实体完整性、参照完整性
和自定义完整性来确保数据的完整一致
关系数据模型的基本数据结构就是关系(Relation),一个关系对应
着一个二维表,二维表的名字就是关系名。
关系名
表3-1 学生表
学号 姓名 性别 年龄 图书证号 所在系
S3001 张明 男 22 外语
S3002 李静
您可能关注的文档
最近下载
- 工业企业复工复产申请表.docx VIP
- 办理建设工程质量、安全监督登记手续指南.docx VIP
- 2025年演出经纪人演出成本与收益数据管理专题试卷及解析.pdf VIP
- 黑布林英语阅读《巴斯克维尔的猎犬》中英互译.docx VIP
- 小学英语学科质量提升实施方案.docx VIP
- 2025年沈阳职业技术学院单招职业倾向性考试题库及一套完整答案详解.docx VIP
- 《全国耕地类型区、耕地地力等级划分》(NYT309-1996).docx VIP
- 离退休职工近期思想状况分析.doc VIP
- 2022年甘肃省兰州市中考语文真题附答案.docx VIP
- 【中考语文】2023年甘肃省兰州市初中学业水平考试语文真题试卷(原卷及解析).pdf VIP
原创力文档

文档评论(0)