释放海量数据的潜能.docVIP

下载本文档

1
0
约5.43千字
约 4页
2017-08-13 发布于河南
举报
版权申诉

释放海量数据的潜能.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

释放海量数据的潜能借助Informatica 9.1平台，将海量数据转化为重大机遇从几拍字节的数据仓库到社交媒体数据、从基于云计算的应用程序到传感器和移动设备、从电子商务处理到地理空间信息，海量数据时代现已来临。海量数据可以成为一个组织的最大资产，也可以成为其最严重的负累之一，这取决于是否能在短期内实施到位的策略和解决方案，以处理数据量、复杂性、多样性和速率的快速增长。 Informatica? 9.1 被专门设计用于帮助贵组织将海量数据转化为重大机遇。这一最新推出的 Informatica 平台可加强各个组织组合快速增长的交易数据与大量全新交互数据的能力，从而取得任何其它解决方案均无法达成的洞察力与战略优势。海量数据的您是否还记得 1 TB 的数据仓库被视为大储量的年代？如今，您只需付出不到100美元，就能从当地零售商处买到储量为 1 TB 的存储设备，而许多数据仓库的存储量已经超过了拍字节。说到拍字节，您是否知道一泽字节（zettabyte）内包含多少拍字节？直到最近，泽字节仅具有理论性意义。但如今，据专家们的估测，全世界的数据已经超过了 ZB 阀值，即超过一百万拍字节。欢迎您来到海量数据时代。在今后几年内，企业所产生、消费、存储及访问的数据量将成倍增长。有些人称海量数据为“数据的工业革命”，代表信息在商业、政府和消费者领域中所扮演的角色出现了具有改变历史和游戏规则意义的扩展。不过，持续增长的数据量仅仅是海量数据的一半构成内容。海量数据同时带来了数据多样性、复杂性和速率的大规模增长。许多组织已经面临着海量数据带来的无情冲击 - 在全球范围内，来自数百个来源的数据以几十种不同形式源源不断地实时涌入。还有一些人则认为，与海量数据比较，所有过往前例都将是小巫见大巫。研究机构 IDC 针对海量数据现象总结：“好戏尚未上场。”Gartner认为：“海量数据既是一项破坏力，也是一个业已影响到传统认识和业务模式的紧迫问题……它打乱了现行趋势，同时亦代表了公共部门、业务和 IT 领导者们无法忽略的巨大机会。” 定义海量数据什么是海量数据？海量数据意味着包括交易和交互数据集在内的所有数据集，其规模或复杂程度超出了常用技术按照合理的成本和时限捕捉、管理及处理这些数据集的能力。实际上，海量数据是由三项主要技术趋势汇聚组成：海量交易数据：在从 ERP 应用程序到数据仓库应用程序的在线交易处理（OLTP）与分析系统中，传统的关系数据以及非结构化和半结构化信息仍在继续增长。随着企业将更多的数据和业务流程移向公共和私有云，这一局面变得更加复杂。海量交互数据：这一新生力量由源于 Facebook、Twitter、LinkedIn 及其它来源的社交媒体数据构成。它包括了呼叫详细记录（CDR）、设备和传感器信息、GPS 和地理定位映射数据、通过管理文件传输（Manage File Transfer）协议传送的海量图像文件、Web 文本和点击流数据、科学信息、电子邮件等等。海量数据处理：海量数据的涌现已经催生出了设计用于数据密集型处理的架构，例如具有开放源码、在商品硬件群中运行的 Apache Hadoop。对于企业来说，难题在于以具备成本效益的方式快速可靠地从 Hadoop 中存取数据。如何定义“海量”？虽然专家们一致同意海量数据的宏大性，但对于它究竟有多“海量”则存在争议。IDC 为所谓的全球“数字宇宙”预测了约为50%的年增长率，而 IDC 估计其中70%以上的数据由消费者生成，超过20%由企业生成。IDC 亦预计自2009年到2020年之间，该“数字宇宙”的膨胀因素将是44到35泽字节，或3500万拍字节。美国加州大学圣地亚哥分校的计算机学家们对于海量数据所做出的估测则远远更为庞大。在一份于2011年4月发表的报告中，该大学估测全世界的企业服务器在2008年所处理的总数据量达到了9.57泽字节，且不包括按其计算由美国家庭产生的3.6泽字节数据量。4该大学提出的仅与企业信息相关的数值已经是 IDC 估计的企业与消费者数据量总和的10倍以上。然而，无论这两者孰是孰非，关键是它们所提及的数据量均极为庞大。如果要以具体形象来代表其估测，加州大学圣地亚哥分校称在以平装书形式代表9.75泽字节内容的情况下，其排列长度是地球到海王星之间来回距离的20倍。在单独一家企业中，对于海量数据没有明确的规模定义，不过通常其数量介于几十个太字节到多个拍字节之间。一项由 Unisphere Research 对531名独立 Oracle 用户组成员进行的调查发现，百分之九十的企业的数据量在迅速上涨，其中16%的企业每年的增长率达到50%或更高。不少企业已经感受到失控数据增长对绩效造成的冲击。举例来说，一项由 Informatica 赞助的 Un