- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据 “大数据” ? “大数据”这个术语最早期的引用可追溯到 apache org 的开源项目 Nutch 。当时,大数据 用来描述为更新网络搜索索引需要同时进行批 量处理或分析的大量数据集。 战略意义 ? 大数据技术的战略意义不在于掌握庞大的数据 信息,而在于对这些含有意义的数据进行专业 化处理。换言之,如果把大数据比作一种产业, 那么这种产业实现盈利的关键,在于提高对数 据的“加工能力”,通过“加工”实现数据的 “增值” 。 结构 ? 从技术上看,大数据与云计算的关系就像一枚 硬币的正反面一样密不可分。大数据必然无法 用单台的计算机进行处理,必须采用分布式架 构。它的特色在于对海量数据进行分布式数据 挖掘( SaaS ),但它必须依托云计算的分布式 处理、分布式数据库( PaaS )和云存储、虚拟 化技术( IaaS )。 4 个基本特征 ? 一、数据体量巨大。 ? 二、数据类型多样。现在的数据类型不仅 是文本形式,更多的是图片、视频、音频、 地理位置信息等多类型的数据。 ? 三、处理速度快。数据处理遵循“ 1 秒定 律”,可从各种类型的数据中快速获得高 价值的信息。 ? 四、价值密度低。以视频为例,一小时的 视频,在不间断的监控过程中,可能有用 的数据仅仅只有一两秒。 大数据的作用 ? 第一,对大数据的处理分析正成为新一代信息 技术融合应用的结点。移动互联网、物联网、 社交网络、数字家庭、电子商务等是新一代信 息技术的应用形态,这些应用不断产生大数据。 云计算为这些海量、多样化的大数据提供存储 和运算平台。通过对不同来源数据的管理、处 理、分析与优化,将结果反馈到上述应用中, 将创造出巨大的经济和社会价值。 大数据的作用 ? 第二,大数据是信息产业持续高速增长的新引 擎。面向大数据市场的新技术、新产品、新服 务、新业态会不断涌现。在硬件与集成设备领 域,大数据将对芯片、存储产业产生重要影响, 还将催生一体化数据存储处理服务器、内存计 算等市场。在软件与服务领域,大数据将引发 数据快速处理分析、数据挖掘技术和软件产品 的发展。 大数据的作用 ? 第三,大数据利用将成为提高核心竞争力的关 键因素。各行各业的决策正在从“业务驱动” 转变“数据驱动” 大数据的作用 ? 第四,大数据时代科学研究的方法手段将发生 重大改变。 大数据的处理 ? 1. 采集 ? 大数据的采集是指利用多个数据库来接收 发自客户端( Web 、 App 或者传感器形式等) 的数据,并且用户可以通过这些数据库来 进行简单的查询和处理工作。 大数据的处理 ? 2. 导入 / 预处理 ? 虽然采集端本身会有很多数据库,但是如果要 对这些海量数据进行有效的分析,还是应该将 这些来自前端的数据导入到一个集中的大型分 布式数据库,或者分布式存储集群,并且可以 在导入基础上做一些简单的清洗和预处理工作。 大数据的处理 ? 3. 统计 / 分析 ? 统计与分析主要利用分布式数据库,或者分布 式计算集群来对存储于其内的海量数据进行普 通的分析和分类汇总等,以满足大多数常见的 分析需求,在这方面,一些实时性需求会用到 EMC 的 GreenPlum 、 Oracle 的 Exadata ,以及基 于 MySQL 的列式存储 Infobright 等,而一些批 处理,或者基于半结构化数据的需求可以使用 Hadoop 。 大数据的处理 ? 4. 挖掘 ? 与前面统计和分析过程不同的是,数据挖掘一 般没有什么预先设定好的主题,主要是在现有 数据上面进行基于各种算法的计算,从而起到 预测( Predict )的效果,从而实现一些高级 别数据分析的需求。 大数据的处理 ? 整个大数据处理的普遍流程至少应该满足以上 四个方面的步骤,才能算得上是一个比较完整 的大数据处理。 人们对大数据的认识误区 ? 一、数据不等于信息 ? 经常有人把数据和信息当作同义词来用。其实 不然,数据指的是一个原始的数据点(无论是 通过数字,文字,图片还是视频等等),信息 则直接与内容挂钩,需要有资讯性 ( informative )。数据越多,不一定就能代 表信息越多,更能不能代表信息就会成比例增 多。 人们对大数据的认识误区 ? 二、信息不等于智慧( Insight ) ? 现在我们去除了数据中所有重复的部分,也整 合了内容类似的数据,现在我们剩下的全是信 息了,这对我们就一定有用吗?不一定,信息 要能转化成智慧,至少要满足一下三个标准: ? 可破译性、关联性、新颖性。 案例 ? 1. 大数据应用案例之:医疗行业 ? [1] Seton Healthcare 是采用 IBM 最新沃森 技术医疗保健内容分析预测的首个客户。 该技术允许企业找到大量病人相关的临床 医疗信息,通过大数据处理,更好地分析
原创力文档


文档评论(0)