- 1、本文档共20页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
1EB数据相当于美国国会图书馆中存储的数据的4000多倍 * EMC公司是全球信息存储及管理产品、服务和解决方案方面的领先公司。EMC是每一种主要计算平台的信息存储标准,而且,世界上最重要信息中的 2/3 以上都是通过EMC的解决方案管理的。 该公司成立于1979年,总部设在美国马萨诸塞州的霍普金顿市。该公司是企业智能存储及检索科技领域居世界领先地位的独立供应商,业务包括为大型计算机、开放式及中型系统设计储存系统,用户遍及世界各地。在中国及亚太区的代表性用户包括:中国农业银行、中国银行、中国民航、Bali银行、Duta银行、Gemex公司、大韩航空、宏利保险公司、Metro银行、PCI银行、新加坡航空公司、汇丰银行、马来西亚电信公司等 * * * ——大数据引领我们走向数据智能化时代 什么是大数据 大数据的定义理解 大 数 据 什么是大数据 大数据时代的背景 1 大数据的定义理解 大数据的“4V”特征 2 大数据的构成 3 大数据时代的背景 半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。 全球每秒钟发送 2.9 百万封电子邮件,一分钟读一篇的话,足够一个人昼夜不息的读5.5 年… 每天会有 2.88 万个小时的视频上传到Youtube,足够一个人昼夜不息的观看3.3 年… 推特上每天发布 5 千万条消息,假设10 秒钟浏览一条信息,这些消息足够一个人昼夜不息的浏览16 年… 每天亚马逊上将产生 6.3 百万笔订单… 每个月网民在Facebook 上要花费7 千亿分钟,被移动互联网使用者发送和接收的数据高达1.3EB… Google 上每天需要处理24PB 的数据… 数据量增加 TB PB ZB EB 根据IDC 监测,人类产生的数据量正在呈指数级增长,大约每两年翻一番,这个速度在2020 年之前会继续保持下去。这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量。 数据结构日趋复杂 大量新数据源的出现则导致了非结构化、半结构化数据爆发式的增长 这些由我们创造的信息背后产生的这些数据早已经远远超越了目前人力所能处理的范畴 大数据时代正在来临… 大数据时代的背景 20世纪90年代,数据仓库之父的Bill Inmon就经常提及Big Data。 2011年5月,在“云计算相遇大数据”为主题的EMC World 2011 会议中,EMC 抛出了Big Data概念。 大数据时代的背景 体量Volume 多样性Variety 价值密度Value 速度Velocity 非结构化数据的超大规模和增长 占总数据量的80~90% 比结构化数据增长快10倍到50倍 是传统数据仓库的10倍到50倍 大数据的异构和多样性 很多不同形式(文本、图像、视频、机器数据) 无模式或者模式不明显 不连贯的语法或句义 大量的不相关信息 对未来趋势与模式的可预测分析 深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等) 实时分析而非批量式分析 数据输入、处理与丢弃 立竿见影而非事后见效 大数据的4V特征 “大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)”就是“大数据”的显著特征,或者说,只有具备这些特点的数据,才是大数据。 Value 价值 挖掘大数据的价值类似沙里淘金,从海量数据中挖掘稀疏但珍贵的信息. 价值密度低,是大数据的一个典型特征. 2010年海地地震,海地人散落在全国各地,援助人员为弄清该去哪里援助手忙脚乱。传统上,他们只能通过飞往灾区上空来查找需要援助的人群。 一些研究人员采取了一种不同的做法:他们开始跟踪海地人所持手机内部的SIM卡,由此判断出手机持有人所处的位置和行动方向。正如一份联合国(UN)报告所述,此举帮助他们“准确地分析出了逾60万名海地人逃离太子港之后的目的地。”后来,当海地爆发霍乱疫情时,同一批研究人员再次通过追踪SIM卡把药品投放到正确的地点,阻止了疫情的蔓延。 Variety 多样性 企业内部的经营交易信息;物联网世界中商品,物流信息;互联网世界中人与人交互信息,位置信息等是大数据的主要来源. 文本/图片/视频 等非结构化/半结构化数据 能够在不同的数据类型中,进行交叉分析的技术,是大数据的核心技术之一.语义分析技术,图文转换技术,模式识别技术,地理信息技术等,都会在大数据分析时获得应用. 非结构化数据 相对于结构化数据而言,不方便用数
您可能关注的文档
最近下载
- 附件2.安徽省老年大学(学校)建设指导标准(试行).doc
- 《职业素养》知识考试题库(含答案).docx
- DBJ33_T 1321-2024《建筑施工拉杆式悬挑脚手架安全技术规程》.pdf
- 2025年公务员考试时事政治100题及答案(含知识点).docx
- 2024年江西电力职业技术学院单招职业技能测试题库及答案(各地真题).docx VIP
- 新项目方法验证能力确认报告2023简化模板:空气质量 甲醛的测定 乙酰丙酮分光光度法GBT 15516-1995.pdf VIP
- 美的面包机食谱-官方通用版.pdf
- 抗凝剂皮下注射护理规范.pptx VIP
- 学校物业管理服务方案(精选8篇).docx VIP
- 自动控制原理(全套课件1085P).ppt
文档评论(0)