基于maprenuce的大数据应用研究.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于maprenuce的大数据应用研究 1 基于大数据的数据安全的研究 大数据的存在是当前科技发展的一个重要而紧迫的问题。虽然大数据不具有时代特征,但随着人类社会的发展和人类科学技术的提高而来。 大数据是个相对的概念。“大数据”取决于两个能力:一是人类对现实世界的映射能力;二是人类对数据的处理能力。 现实世界本身具有复杂、动态和多维的特点, 而且人类对现实世界的映射能力是随着科技的发展不断增强, 因此将现实世界映射为数据的能力也随着科技的发展不断提高。典型的实例是数码设备和互联网技术的发展直接推动了信息爆炸:人们的所见、所闻、所思、所感通过数码设备转换为能够处理的数据, 通过移动通讯技术和互联网技术得到广泛的传播, 在人口基数相对稳定的情况下所产生的数据量呈指数级增长趋势。因此, 大数据一直伴随着人类社会的发展, 只是在人类拥有更加强大的数据映射能力之后, 大数据从隐性的需求变为现实的问题。 计算机技术的发展极大地拓展了人类的数据处理能力。同时, 计算机、移动计算和智能终端又作为新的数据源而产生大量的数据和计算需求。当数据处理的需求超过计算机系统的处理能力时, “大数据”处理就成为科学发展中一个重要的问题。 现实世界的动态性和多样性决定了数据的多样性和易变性, 数据管理需要构建在稳定的数据特征的基础之上, 因此计算机的数据管理和处理能力相对数据的发展而滞后。数据库是数据管理的典型代表性技术, 它的发展依赖于人们对现实世界的抽象能力、建模能力和结构化数据管理能力, 是在现实世界“大数据”之上的抽象化数据管理技术而不是直接处理多样化的现实世界中原始“大数据”的技术。 互联网技术的发展使互联网本身成为一个巨大的非结构化数据库, 但由于缺乏统一的数据管理机制而使互联网成为一个完全自治的、异构的巨大数据源而非传统意义的数据库。电子商务、Web2.0、社会网络等技术的发展使人们对网络点击行为产生了兴趣并从中获得巨大的价值, 但这些记录用户行为模式的网络日志数据伴随互联网规模的迅速扩张而极大地膨胀, 传统的数据存储、管理和处理能力难以应对其巨量数据的管理需求。随着智能终端、移动计算、传感器网络、物联网等技术的发展和普及, 数据产生的来源和采集能力极大增强, 可以想象未来每一个智能终端都会成为数据网络中的一个节点, 数据将随着设备的发展而更加多样化, 数据管理将被赋予更加广泛的含义, 而数据库也将伴随着大数据的特性而不断拓展其数据管理能力。 简而言之, 大数据既是一个相对的概念又是一个永恒的概念, 它伴随着人类对现实世界认知能力和反映能力的发展而发展, 大数据管理也是一个数据管理技术与方法不断适应大数据特性的过程。大数据管理主要面临两个挑战:一是存储能力, 二是处理能力。 2 大数据存储 高德纳咨询公司 (Gartner)在2001年的报告将大数据特点归纳为三个方面, 即巨量 (Volume) 、速度 (Velocity) 和多样性 (Variety) 。大数据首先体现在数据量的变化上:IDC预计2015年创建和复制的数据量将达到近8ZB (1ZB=106PB) ;在大数据提供了更丰富的数据来源和更庞大的样本数据时, 人们并不能容忍大数据的处理响应时间随着数据量的增长而增加, 因此大数据也意味着随着数据量的增长, 数据处理和响应能力也需要随之提高, 从而保证数据处理延迟在人们接受的范围之内。大速度的速度特性要求大数据的处理能力和存储能力同样具有可扩展性, 从而保证在数据量的高速增长中保证良好的响应性能。大数据的多样性体现了数据来源的特征, 来自于企业、政府部门、互联网、网络用户个体等各种各样的数据都成为数据分析的对象, 在传统的结构化数据基础之上, 半结构化和非结构化数据占据了越来越大的比重, 因此大数据管理所面临的重要的问题是非结构化数据管理和多样化数据集成。 大数据存储的压力主要体现在三个方面:多样化的数据如何在存储模型上统一管理;面向巨量数据的高可扩展性存储网络;数据快速加载能力。 2.1 大数据存储的理论基础 关系数据库的发展源自于企业核心业务, 以事务处理的ACID (指数据库事务正确执行的四个基本要素的缩写, 包含:原子性 (Atomicity) 、一致性 (Consistency) 、隔离性 (Isolation) 、持久性 (Durability) ) 特性为特征, 以结构化的数据模型和规范化技术优化存储模型, 通过关系模型映射现实世界的实体和联系信息。因此, 需要预定义模式以规范数据存储模型, 需要定义约束条件以保证导入数据的质量, 需要进行模式优化以保证最小的数据冗余, 需要严格的ACID特性以保证事务的一致性, 是一种强约束的数据管理技术。 关系数据库技术起源于上世纪七八十年代, 面对昂贵的存储系统, 数据库需要实现模

文档评论(0)

139****9425 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档