Microsoft大数据解决方法.PDFVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Microsoft大数据解决方法

第 章 2 Microsoft 大数据解决方法 本章内容: ● 认识 Microsoft 大数据战略布局 ● Hadoop 生态系统的竞争性 ● 决定如何部署 Hadoop 在第 1 章我们学习了构成 Hadoop 生态系统的各类项目的一些知识。本章将集中讨论 Microsoft 的大数据解决方法,并更深入探讨 Hadoop 中更具竞争力的要素。最后,我们将 看看部署 Hadoop 的注意事项并评估部署选项。我们将考虑这些部署因素如何在拓扑结构 中体现,以及如何予以缓解。 2.1 “优质组合”的故事 时光回溯至2011 年,高级副总裁Ted Kummert 在PASS 峰会演讲中正式宣布Hortonworks 成为 Microsoft “大数据”核心战略合作伙伴。这让所有人都吃了一惊。 我们这些 Microsoft 追随者一直在期待它发布一款分布式扩展计算的专利产品( 比如名 为 Dryad 的Microsoft 研究项目) ,但事与愿违。Microsoft 在合作关系上选择进行投资并与 开源社区合作,使 Hadoop 运行于 Windows 平台并和 Microsoft 工具协同工作。这个决定不 仅仅是胆大妄为,简直是史无前例。 在那一周晚些时候,Dave DeWitt 在答疑会上发表了对 “市场的声音”和选择 Hadoop 的见解。我们更深入地洞察了Microsoft 做出这个决定的原因,他们起步太晚,已经错过了 发布专属产品的最佳时期。但这仅是故事的开始。尽管 Hadoop 的核心是开源的,但是竞 争依然无处不在,大量基于 Hadoop 的专利产品已经问世。Microsoft 能开发出专利组件吗? 没人知道。重要的是前车可鉴,产品公司期望投资能转化为收益,看来势必会有更多基于 Hadoop 的专利产品陆续问世。 第Ⅰ部分 大数据的含义 Microsoft 涉足大数据和开源解决方案领域(Open Source Solution,OSS)使更多的战略 重心转移到了 Windows Azure 云计算方面并且有了广泛的重叠。这导致了大数据战略中一 些很有趣的结果——那些没有这种变化根本不会实现的结果。你能想象到 Linux 会成为 Microsoft 数据平台的一部分吗?反正我是没有! 在有了这些想法后,我强烈建议您继续往下读,学习关于这个引人入胜的生态系统的 更多知识。搞清楚 Microsoft 与开源世界的关系,清晰认识 Apache Hadoop 集群的部署抉择。 注意: 假如想了解更多关于 Dryad 项目的信息,/en-us/projects/ dryad/是一个很好的启蒙网站,你会发现一些不可思议的相似之处。 2.2 生态系统中的竞争 Hadoop 的开源性并不意味着就没有竞争,实际上恰恰相反。大多数情况有点类似于玩 牌的时候亮牌,大家都可以看到对方的牌,直到看不到牌面之后情况才有会有所改变。许 多系统将开源技术作为专利扩展混合组件的一部分,这些专利技术就好像将牌面遮住继而 增强了竞争力。我们之后学习 Cloudera 的Impala 技术时会分析一个这种实例。 Hadoop 当然也不能免俗。为在市场中体现差异性,Hadoop 代理商选择多元化介入而 不是仅仅通过单一项目或方案的协作。让我们通过 SQL on Hadoop 领域来突出体现这些 是如何运作的。没有哪个领域比下一代 SQL on Hadoop 对分发版的未来更重要,更具有争 议性。 2.2.1 SQL on Hadoop 现状 回顾第 1 章:SQL on Hadoop 通过 Hive 项目应运而生,Hive 通过名为 HQL 的类 SQL 语言将 MapReduce 的复杂程度抽象化。注意,这并不意味着Hadoop 会突然就遵循事务处 理的 ACID 规则(原子性、一致性、隔离性、持久性,

文档评论(0)

wyw118 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档