海量数据管理及大数据培训讲义.pptxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
海量数据管理及大数据2021/7/515423大数据时代的机遇和挑战海量数据管理大数据的发展大数据的应用大数据的定义和特征2021/7/5数据信息知识什么是数据?举例:-100万(没有任何意义)A公司今年利润-100万(包含信息,意味着亏损)A公司今年亏损100万,我应该抛出手中的该公司股票(为决策服务)原始数据点数字、文字、图片、视频等≠有价值的数据集合具有特定的意义≠可为决策提供依据具有可破译性、关联性、新颖性和价值性的加工后信息2021/7/5DB1024NB1024BB1024YBZB1024EB1024PB1024TB1024GB1024MB1024KBByte1024bit10248数据:是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的的原始素材。2009年,全球产生数据量0.80ZB;2010年,全球产生数据量1.20ZB;2011年,全球产生数据量1.82ZB。截止2012年,人类所有生产的印刷材料数据量200PB,全人类历史所说的话数据量大约为5EB整个人类文明中,90%的数据是过去两年产生的到2020年,数据规模将是今天的44倍。2021/7/5百度百科对大数据的定义是: 大数据( Big Data) ,或称巨量资料,指由于容量太大和过于复杂,无法在一定时间内用常规软件对其内容进行抓取、管理、存储、检索、共享、传输和分析的数据集。麦肯锡全球研究院(2011)对大数据的定义是从数据集的大体量入手的:大数据是指那些规模大到传统的数据库软件工具已经无法采集、存储、管理和分析的数据集。维克托?迈尔-舍恩伯格(2012)在《大数据时代》一书中主要从价值大的角度来定义大数据,他认为大数据是当今社会所独有的一种新型的能力:以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见。大数据的定义2021/7/5大数据的5V特点:Volume、Velocity、Variety、Value、Veracity大数据的特征2021/7/5Volume 大量广州超算中心存储量16000个运算节点+312万个计算核心整体总计内存1.408PB计算量12.4PB的硬盘阵列2021/7/5Velocity 高速Volume 大量数据更新、增长速度快 数据体量巨大。从TB级别跃升到PB级别。 处理速度快。1秒定律。 这一点也是和传统的数据挖掘技术有着本质的不同。+ Facebook上每秒有4.1万张照片上传,淘宝每秒有数万笔交易。数据存储、传输等处理速度快2021/7/5Velocity 高速Variety 多样Volume 大量 数据类型繁多。不仅包括传统的关系数据类型,也包括以网页、音视频、文档等形式存在的未加工的、半结构化和非结构化的数据。 数据体量巨大。从TB级别跃升到PB级别。 处理速度快。1秒定律。 这一点也是和传统的数据挖掘技术有着本质的不同。2021/7/5Value 价值Velocity 高速Volume 大量Variety 多样 数据类型繁多。不仅包括传统的关系数据类型,也包括以网页、音视频、文档等形式存在的未加工的、半结构化和非结构化的数据。 数据体量巨大。从TB级别跃升到PB级别。 处理速度快。1秒定律。 这一点也是和传统的数据挖掘技术有着本质的不同。 价值密度低。但庞大的数据中蕴含着新知识,以及极其重要的预测价值。2021/7/5 真实性或许是最难解决的问题。如果你不相信数据本身、数据的来源、或者你正在使用的判断哪些数据点是重要的流程,那么你就会被真实性问题所困扰。大数据存在的最严重问题之一是其有滚雪球式的错误倾向。用户输入的错误、冗余、腐败都会影响数据价值。你聘请的咨询公司需要帮你清理现有的数据,并将流程恢复到位,减少日后脏数据的积累。2021/7/5Veracity 真实大数据的前世今生莫里航海图,最早的大数据实践 大航海时代,早期由于对潮汐、风和洋流等知识的缺乏,远洋航海不仅效率低下,而且充满危险。 马修·方丹·莫里曾是一名优秀的美国海军军官,在一次偶然的事故后被迫退役。随后,他与20个志同道合的数据处理者一起,整理了所有旧航海图上的信息,并绘制了一张拥有120万数据点的航海图。 通过分析这些数据,莫里知道了一些良好的天然航线,这些航线上的风向和洋流都非常利于航行。他所绘制的图表使航海路程减少,也变得更安全。2021/7/5《Nature》杂志出版专刊“Big Data”,分析了大量快速涌现数据给数据分析处理带来的巨大挑战。5月麦肯锡全球研究院发布了《大数据:创新、竞争和生产力的下一个领域》研究报告。5月,联合国发表名为《大数据促发展:挑战与机遇》的政务白皮书。2001年2008年2011年《Science》推出关于数据处理的专刊“Dealing with

文档评论(0)

189****5087 + 关注
官方认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:7102116031000022
认证主体仪征市思诚信息技术服务部
IP属地江苏
统一社会信用代码/组织机构代码
92321081MA278RWX8D

1亿VIP精品文档

相关文档