大数据导论-第3章 数据存储与管理(2017春季学期授课版本).pptx

大数据导论-第3章 数据存储与管理(2017春季学期授课版本).pptx

  1. 1、本文档共16页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据导论-第3章数据存储与管理(2017春季学期授课版本)要点

第三章 数据存储与管理 (2016-2017学年第二学期) 《大数据导论》 王小平 南京理工大学泰州科技学院-曙光大数据学院 E-mail: Wangxiaoping@ 第三章 数据存储与管理 3.1数据存储与管理技术 3.2大数据存储与管理应用 3.3大数据存储与管理面临的挑战 3.1数据存储与管理技术 3.1数据存储与管理技术 3.1.1传统关系型数据库 3.1.2新兴的数据库存储管理系统 3.1数据存储与管理技术 3.1.1传统关系型数据库 1)定义 2)发展的几个阶段 3)目前市场主流的关系型数据库 4)大数据环境下,传统关系型数据库的不足表现 E.F.Codd Don Chamberlin 3.1数据存储与管理技术 3.1数据存储与管理技术 1)定义 关系型数据库 表1 表2 表3 数据记录 列 列 数据 数据 数据 数据 数据记录 列 列 数据 数据 数据 数据 3.1数据存储与管理技术 理论奠基 数学家E.F.Codd发表了数学论文《用于大型共享数据库的关系数据模型》,提出关系和关系运算的概念,奠定了关系型数据库的理论模型。 SQL标准 DonChamberlin将Codd的论文和关系运算,转换成为比较容易理解和使用的SQL语言,并且在后面成为所有关系型数据库的标准。 商用成型 LarryElision和他的同事看到商机,开发出第一个商用大型关系型数据库Oracle,Scott作为一个开发的员工,将其测试账户放在里面了 2 3 1 2)发展的几个阶段 4 多家发展 除了Oracle数据库,IBM也开发出了DB2数据库后来演变成了Postgres SQL。微软和Sybase合作,开发除了MS SQL和Sybase;后又加入Ingres和Informax,其他的主流关系型数据库几乎都和Michael Stonebraker有关。 3.1数据存储与管理技术 3)目前市场主流关系型数据库 1. Oracle 2. MySQL 3. MariaDB 4. SqlServer 5. Access 6. DB2 7. Sybase 8. Informix 3.1数据存储与管理技术 4)大数据环境下,传统关系型数据库的不足表现 NO.1 应用场景局限性 NO.3 对非结构化数据的处理能力不足 NO.2 快速访问海量数据的能力被束缚 NO.4 扩展性能差 3.1.2新兴的数据存储管理系统 ►大数据类型(回顾) ►大数据存储与管理发展过程中,典型的技术 1)Hadoop是什么,Hadoop四个主要的特征 2)认识NoSQL数据库, NoSQL数据库较关系型数据库的优势 3)认识NewSQL, NewSQL系统类型 4)云存储 3.1数据存储与管理技术 3.1数据存储与管理技术 大数据的类型(回顾) 传统企业数据 包括CRMsystems的消费者数据,传统的ERP数据,库存数据以及账目数据等。 机器和传感器数据 包括呼叫记录,智能仪表,工业设备传感器,设备日志,交易数据等。 社交数据 包括用户行为记录,反馈数据等。如Twitter,Facebook这样的社交媒体平台。 3.1数据存储与管理技术 大数据存储与管理发展过程中,典型的技术(引入) 分布式文件存储(HDFS) NoSQL数据库 NewSQL数据库 云存储技术 是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。 NoSQL的拥护者们提倡运用非关系型的数据存储,相对于铺天盖地的关系型数据库运用,这一概念无疑是一种全新的思维的注入。 NewSQL是指这样一类新式的关系型数据库管理系统,针对OLTP(读-写)工作负载,追求提供和NoSQL系统相同的扩展性能,且仍然保持ACID和SQL等特性。 指通过集群应用、网络技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。 3.1数据存储与管理技术 1)Hadoop与HDFS Hadoop与HDFS Hadoop是由Apache基金会开发出来的一个开源的软件框架,简单地说,Hadoop是一个分布式系统和并行执行环境,便于存储和处理大规模数据的开源软件平台。HDFS是Hadoop的核心,是Haoop框架的分布式文件系统。 Hadoop的主要特征 1.扩展能力强

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档