- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
驾驭大数据精选
驾驭大数据
庞大的信息流现在有了新的约束规则。PB 级数据世界内发生了哪些变化?大数据将如何改变您的做事方式?
海量的信息充斥着 IT 世界。这些信息从全球 43 亿部电话和 20 亿位互联网用户生成的数据中流出,与 300 亿个 RFID 标记和数百颗人造卫星和每秒都在不断发送的更多信号融合在一起。当然,没有人会一下子处理全球所有数据。但是当这个数据馅饼变大时,每个人分得的部分也会变大。当您开始以 ZB 为单位衡量这个馅饼时,甚至一小部分也会变得很大。这里有一个具体的统计信息:单单 Twitter 每天就会增加 12 TB 的数据 - 全文本,而且每次最多添加 140 个字符。
这种规模的数据处理是一种新的极限,许多人正在以多种不同的方式接近它。但人们越来越意识到,我们将数据的诞生视为永远不会消失的挑战。一些人将此称为大数据。
大数据:3 个 V
当我们听到词语 “大数据” 时,大部分人立即会想到庞大的数据集,当数据量达到 TB 和 PB 级时,它们就需要以不同的方式对待。能够良好地处理较小数据量的算法常常无法足够迅速或有效地处理较大的数据集,没有无限容量这样的东西,无论存储介质和管理如何发展。
但是,数据量(volume)只是大数据挑战的一个方面,其他两个方面指的是速度(velocity)和多样性(variety)。速度表示收集、处理和使用数据的速度需求。许多分析算法可处理大量的信息,前提是您要整晚运行这些算法。但是如果存在实时需要(比如国家安全或儿童健康方面),处理一整晚这样的速度不再够用。
种类表示不断增长的数据类型阵列 —— 音频、视频、图像数据,以及从零售交易、文本消息和遗传密码等丰富多样的来源收集的信息集合。在处理那些可用行和列表示且通过命令(比如 select 和 jion)操作的数据时,传统的分析和数据库方法表现非常优秀。但许多描述我们的世界的要素,既无法硬塞入行和列中,也无法使用那些依赖于一系列 select、join 或其他相关命令的软件来轻松分析。
当您将数量、种类和速度综合起来时,就只能获得一些不能很好地发挥作用的数据。结果,处理大数据需要一定程度的数据库敏捷性,以及难以或者甚至无法单独使用如今的技术实现的可变性。“在传统的数据库中,设计就是一切,” IBM Information Management 项目总监 Tom Deutsch 说。“它只关乎结构。如果数据更改,如果您希望知道的信息更改,或者如果您希望将数据与来自另一种渠道或数据仓库的信息相结合,您必须更改数据仓库的整体结构。对于大数据,您常常要处理不断演化的需求,当然还有大量数据(其中只有一部分是您自己生成的),而且您将希望能够更改您运行的作业,而不是数据库设计。”
了解极限
因为在处理大数据时,只有传统的数据库管理器和数据仓库是不够的,所以许多组织都在调整他们的系统以应付大量 “行为不良” 数据。解决方案各异,取决于它们想要解决的问题的具体性质,一些解决方案应对高速、高容量的信息,而另一些必须处理大量高可变性信息。但是,也可能发现这样一些常见的战略和技巧,它们要么能够减少需要存储或处理的信息量,要么使用能够处理大量新需求的更新、更强大的技术来处理它。
TerraEchos 就是一家处理所有 3 V 数据的公司,它是一家领先的隐秘情报和观测传感器系统提供商,使用了流数据来监控高度安全的设施、国家边界和石油管道破裂。TerraEchos Adelos S4 传感器知识系统将来自埋藏在地下数英里长的光纤传感器的声学读数与来自安全照相机和人造卫星等各种传感器来源的数据相结合。这种海量的高可变性、高速数据(有时在几小时内就会达到几 TB)必须收集,与来自其他渠道的信息相结合,并以极快的速度进行分析,以查找入侵者,检测地震事件或查找设备损坏。
“我们需要在高速传送带传送来数据后立即进行分析。我们不敢奢望首先对它进行结构化并放入数据库中,因为我们希望能够在 2 到 3 秒内对它进行分类,” TerraEchos CEO Alex Philp 说。“使用采样速率为每秒 12,000 个读数的数字信号处理器以及可能数千个不同的数据流,我们必须使用完全不同的方法才能迅速响应,” Philp 说。
对于 TerraEchos,这种铺天盖地的数据的受害者是已经统治数据处理领域几十年的 “提取-转换-加载” 模式:从数据来源提取数据,执行众多耗时的操作来转换它,以便能准确容纳在一种既定模式的行和列格式中,最后将它加载到数据仓库中。公司日渐开始在传入信息到来时即进行转换和分析。如果它遇到某种条件(比如,如果音频流显示出一种听起来像汽车逼近的模式,它会立即进行标记以用于更多分析,常常还会触发其他数据收集和数据存储操作。
“我们常常一次仅分析几秒长度的数据,” P
文档评论(0)