大数据安全38.ppt

  1. 1、本文档共38页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据安全38

大数据安全专题研究 贺文娜 主要内容 一、什么是大数据 二、大数据的相关技术 三、大数据的应用 四、大数据安全问题及保护技术 五、机遇与挑战 一、什么是大数据 1、大数据的定义 2、大数据的特点 3、大数据结构类型 4、大数据实例 5、大数据发展史 有多大?数据度量 1 B = 一个字符或一粒沙子  1 KB = 一个句子或几撮沙子  1 MB = 一个20 页的幻灯片演示文稿、一本小书或一大汤勺沙子  1 GB = 书架上9 米长的书或者整整一鞋盒子的沙子  1 TB = 300 小时的优质视频、美国国会图书馆存储容量的十分之一或者一个操场沙箱  1 PB = 35 万张数字照片或者一片1.6 公里长的海滩  1 EB = 1999 年全世界生成的信息的一半或上海到香港之间的海滩  1 ZB = 无法想象,或者几乎全世界所有的海滩之和。 1、大数据的定义 大数据(big data),也称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。 最早将大数据用于IT环境的是知名咨询公司麦肯锡。 麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。” “大数据”在物理学、生物学、环境生态学等领域以及军事、金融、通讯等行业存在已有时日,却因为近年来互联网和信息行业的发展而引起人们关注。 2、大数据的特点(4v) Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。 3、大数据的结构类型 4、大数据的实例 一分钟我们能干些什么呢?!! 一分钟能产生多少数据呢?!! 电子邮件用户发送204,166,677(2亿) 条信息; Google 收到超过2,000,000(200万) 个搜索查询; Facebook 用户分享684,478(68万) 条内容; Twitter 用户发送超过100,000 (10万)条微博; 苹果公司收到大约47,000 (5万)个应用下载; 571 个新网站诞生。。。。 5、大数据发展史 我们周围到处都是数字信息。(无线电波、电话电路、计算机电缆) 三种主要的模拟/数字转换为数据增长提供了动力:用胶片拍摄影像转换为数字拍摄影像、模拟语音转换成为了数字语音、模拟电视转换成为数字电视。 2007年是人类创造的信息量有史以来第一次在理论上超过可用存储空间总量的一年。 数字信息的增长是因为网络应用的不断增长。 约30年前,大部分数据都是结构化的,如今,多媒体技术的普及后,非结构化数据爆炸式增长。 可视化是引起数字世界急剧膨胀的原因之一。由 于数码相机、数码监控摄像机和数字电视内容的 加速增多,及信息的大量复制趋势,使得数字世界的容量和速度超过之前。 个人日常生活的“数字足迹”也大大刺激了数字宇宙的快速增长。通过互联网、电子邮件、移动电话、数码相机和在线信用卡交易等方式,每个人的日常生活都在数字化。 大数据快速增长的部分原因归于智能设备的普及,比如传感器和医疗设备,以及智能建筑。 非结构化信息的增长部分归功于宽带数据的增长。 全球数字信息五年间增长了10倍 大数据与云计算 二、大数据的相关技术 分布式文件系统 特点: 支持PB级的大数据集; 提供高可靠、高吞吐率的顺序数据访问; 存储与计算共享节点(存储节点会同时参与应用程序的执行); 使用廉价的硬件(高可扩展性)。 典型的代表: GFS(Google)、HDFS(Hadoop) HDFS-分布式文件系统 采用典型的主从结构的架构设计,实现文件系统 元数据和应用数据分离存放。 名字节点:整个集群的主节点,管理元数据,文 件访问的控制。 数据节点:从节点,负责来自客户端的读写请 求,完成对文件内容的提取和保存。 文件分块,采用一次写多次读的文件访问模式。 HDFS-分布式文件系统 MapReduce MapReduce 计算模型可以说是大数据处理的核 心算法。 MapReduce实现了Map和Reduce两个功能。 Map把一个函数应用于集合中的所有成员,然后返 回一个基于这个处理的结果集。Reduce对结果集进 行分类和归纳。 Map()和 Reduce() 两个函数可能会并行运行,即 使不是在同一的系统的同一时刻。 NOSQL 特点: 不需要预定义模式(不需要预定义数据模式,预定义表结构,数据每条记录都可能有不同的属性和格

文档评论(0)

aining + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档