大数据时代-Hadoop解决数据处理三瓶颈.docxVIP

下载本文档

11
0
约6.59千字
约 11页
2021-12-06 发布于天津
举报
版权申诉

大数据时代-Hadoop解决数据处理三瓶颈.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

PAGE 1 PAGE 1 大数据时代:Hadoop解决数据处理三瓶颈越来越多的大企业的数据集以及创建需要的一切技术，包括存储、网络、分析、归档和检索等，这些被认为是海量数据。这些大量信息直接推动了存储、服务器以及安全的发展。同时也是给IT部门带来了一系列必需解决的问题。越来越多的大企业的数据集以及创建需要的一切技术，包括存储、网络、分析、归档和检索等，这些被认为是海量数据。这些大量信息直接推动了存储、服务器以及安全的发展。同时也是给IT部门带来了一系列必需解决的问题。信息技术研究和分析的公司Gartner认为海量数据处理应当是将大量的不同种类以及结构化和非结构化的数据通过网络汇合处处理器和存储设备之中，并伴随着将这些数据转换为企业的商业报告。海量数据处理的三个主要因素：大容量数据、多格式数据和速度大容量数据(TB级、PB级甚至EB级)：人们和机器制造的越来越多的业务数据对IT系统带来了更大的挑战，数据的存储和安全以及在将来访问和使用这些数据已成犯难点。多格式数据：海量数据包括了越来越多不同格式的数据，这些不同格式的数据也需要不同的处理方法。从简洁的电子邮件、数据日志和信用卡记录，再到仪器收集到的科学研究数据、医疗数据、财务数据以及丰富的媒体数据(包括照片、音乐、视频等)。速度：速度是指数据从端点移动处处理器和存储的速度。 Kusnetzky集团的分析师DanKusnetzky在其博客表示“简洁的说，大数据是指允许组织创建、操作和管理的浩大的数据集和存储设施工具”。这是否意味着将来将会出现比TB和PB更大的数据集吗?供应商给出的回应是“会出现”。他们或许会说“你需要我们的产品来管理和组织利用大规模的数据，只是想想繁杂大量的维护动态数据集带来的麻烦就使人们头疼“。此外海量数据的另外一个价值是它可以帮助企业在适当的时机作出正确决策。从历史上看，数据分析软件面对当今的海量数据已显得力不从心，这种局面正在悄然转变。新的海量数据分析引擎已经出现。如Apache的Hadoop、LexisNexis的HPCC系统和1010data(托管、海量数据分析的平台供应商)的以云计算为基础的分析服务。 101data的高级副总裁TimNegris表示海量数据的收集以及存放和利用海量数据实际上完全是两回事。在做任何事前需要大量(预备数据)的工作是像Oracle和大多数数据库厂商所面临的难题之一。我们正是要消退这个难题，并把数据直接交到分析师的手中。Hadoop和HPCC系统做到了这一点。这三个平台都着眼于海量数据并供应支持。开源的Hadoop已经在过去5年之中证明白自己是市场中最成功的数据处理平台。目前Cloudera的首席执行官和Apache基金会的DougCutting是Hadoop的创始人，他曾在Yahoo工作过。 Hadoop将海量数据分解成较小的更易访问的批量数据并分发到多台服务器来分析(机敏是一个重要的属性，就像你更简单消化被切成小块的食物)Hadoop再处理查询。 “Gartner和IDC的分析师认为海量数据的处理速度和处理各种数据的能力都是Hadoop吸引人们的地方”。Cloudera的产品副总裁CharlesZedlewski说到。在Cutting和他的Yahoo团队提出Hadoop项目之后，在YahooIT系统测试并广泛使用了许多年。随后他们将Hadoop发布到开源社区，这使得Hadoop渐渐产品化。在Cutting和Yahoo在开发、测试并内部运行代码时，他们了解到使用起来还是很复杂的。这导致他们立刻意识到假如在将来供应周边服务(例如供应直观的用户界面、定制部署和附加功能软件)可赚取更多的资金。在2009年Cloudera作为一家独立公司开始运营，公司产品采用开源并产品化Hadoop分析引擎和Cloudera企业版(ClouderaEnterprise整合了更多的工具，包括Hive、HBase、Sqoop、Oozie、Flume、Avro、Zookeeper、Pig和ClouderaDesktop)。 Cloudera得到了大量投资者的青睐，这其中包括VMware的创始人和前首席执行官DianeGreene、Flickr的联合创始人CaterinaFake、MySQL前首席执行官MartenMickos、Linkedln总裁JeffWeiner和FacebookCFOGideonYu。自从Cloudera成立以来，只有少数的顶级公司和初创公司免费供应他们基于Hadoop开放源代码架构制作的自己的版本。