- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
PAGE 1
PAGE 1
大数据时代数据管理方式分析
随着数据应用领域的不断扩展,数据管理所处的环境也越来越复杂,目前广泛流行的数据库技术开始暴露出很多弱点,面临着很多新的挑战。 1、数据管理技术的回顾 数据管理技术主要经历了人工管理阶段、文件系统阶段和数据库系统阶段。随着数据应用领域的不断扩展,数据管理所处的环境也越来越复杂,目前广泛流行的数据库技术开始暴露出很多弱点,面临着很多新的挑战。 1.1人工管理阶段 20世纪50年月中期,计算机主要用于科学计算。当时没有磁盘等直接存取设备,只有纸带、卡片、磁带等外存,也没有操作系统和管理数据的特地软件。该阶段管理的数据不保存、由应用程序管理数据、数据不共享和数据不具有独立性等特点。 1.2文件系统阶段 20世纪50年月后期到60年月中期,随着计算机硬件和软件的发展,磁盘、磁鼓等直接存取设备开始普及,这一时期的数据处理系统是把计算机中的数据组织成相互独立的被命名的数据文件,并可按文件的名字来进行访问,对文件中的记录进行存取的数据管理技术。数据可以长期保存在计算机外存上,可以对数据进行反复处理,并支持文件的查询、修改、插入和删除等操作。其数据面向特定的应用程序,因此,数据共享性、独立性差,且冗余度大,管理和维护的代价也很大。 1.3数据库阶段 20世纪60年月后期以来,计算机性能得到进一步提高,更重要的是出现了大容量磁盘,存储容量大大增加且价格下降。在此基础上,才有可能克服文件系统管理数据时的不足,而满意和解决实际应用中多个用户、多个应用程序共享数据的要求,从而使数据能为尽可能多的应用程序服务,这就出现了数据库这样的数据管理技术。数据库的特点是数据不再只针对某一个特定的应用,而是面向全组织,具有整体的结构性,共享性高,冗余度减小,具有一定的程序与数据之间的独立性,并且对数据进行统一的掌握。 2、大数据时代的数据管理技术 大数据(bigdata),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。大数据有3个V,一是大量化(Volume),数据量是持续快速增加的,从TB级别,跃升到PB级别;二是多样化(Variety),数据类型多样化,结构化数据已被视为小菜一碟,图片、音频、视频等非结构化数据正以传统结构化数据增长的两倍速快速创建;三是快速化(Velocity),数据生成速度快,也就需要快速的处理能力,因此,产生了“1秒定律”,就是说一般要在秒级时间范围内给出分析结果,时间太长就失去价值了,这个速度要求是大数据处理技术和传统的数据挖掘技术最大的区分。 2.1关系型数据库(RDBMS) 20世纪70年月初,IBM工程师Codd发表了闻名的论文“ARelationalModelofDataforLargeSharedDataBanks”,标志着关系数据库时代来临。关系数据库的理论基础是关系模型,是借助于集合代数等数学概念和方法来处理数据库中的数据,现实世界中的实体以及实体之间的联系特别简单用关系模型来表示。简单理解的模型、简单把握的查询语言、高效的优化器、成熟的技术和产品,使得关系数据库占据了数据库市场的肯定的统治地位。随着互联网web2.0网站的兴起,半结构化和非结构化数据的大量涌现,传统的关系数据库在应付web2.0网站特殊是超大规模和高并发的SNS(全称SocialNetworkingServices,即社会性网络服务)类型的web2.0纯动态网站已经显得力不从心,暴露了许多难以克服的问题。 2.2noSQL数据库 顺应时代发展的需要产生了noSQL数据库技术,其主要特点是采用与关系模型不同的数据模型,当前热门的noSQL数据库系统可以说是蓬勃发展、异军突起,许多公司都热忱追捧之,如:由Google公司提出的BigTable和MapReduce以及IBM公司提出的LotusNotes等。不管是那个公司的noSQL数据库都围围着大数据的3个V,目的就是解决大数据的3个V问题。因此,在设计noSQL时往往考虑以下几个原则,首先,采用横向扩展的方式,通过并行处理技术对数据进行划分并进行并行处理,以获得高速的读写速度;其次,解决数据类型从以结构化数据为主转向结构化、半结构化、非结构化三者的融合的问题;再次,放松对数据的ACID全都性约束,允许数据临时出现不全都的状况,接受最终全都性;最终,对各个分区数据进行备份(一般是3份),应对节点失败的状况等。 对数据的应用可以
原创力文档


文档评论(0)