基于Hadoop的大数据应用分析研究.ppt

  1. 1、本文档共47页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* * * * * * * * * Hadoop主要开发厂商—— ORACLE Oracle Big Data机与Oracle Exadata数据库云服务器以及新推出的Oracle Exalytics商务智能云服务器,为客户提供了一个端到端的大数据解决方案,从而为客户在企业内获取、组织、分析大数据以及最大限度地挖掘大数据的价 值提供了所需要的一切条件。 Oracle Big Data机是一款集成设计的系统,并且针对获取、组织以及将非结构化数据加载到Oracle数据库11g之 中的整个流程进行优化。Oracle Big Data机包括开源Apache Hadoop、Oracle NoSQL数据库、Oracle数据集成Hadoop应用适配器、Oracle Hadoop装载器。 EMC公司于2013年发布了自身的Apache Hadoop发行版——Pivotal HD,同时发布的还有一个名为HAWQ的技术,通过HAWQ能够将Greenplum分析型数据库与Hadoop分布式架构进行紧密地融合。Pivotal HD对Apache Hadoop进行了全面的改造,同其他一些Hadoop发行版相比,其最大的优势就是能够与Greenplum数据库进行整合,Pivotal HD和HAWQ让EMC在Hadoop领域更进一步,同时将成为EMC大数据战略中的一个重要里程碑。 Hadoop主要开发厂商——EMC 基于在大数据领域的长期技术积累和应用经验,英特尔推出成熟的企业级 Hadoop 发行版,为企业和政府部门实现大数据应用提供强有力的平台支持。英特尔在 Hadoop 上的改进和功能增强为用户提供了一个高性能、高稳定性和可管理的大数据应用实施平台,并提供全面的专业支持。在 Hadoop软件的英特尔分发版在中国推广的两年多时间里,已经在电信行业、智能交通行业有多个成功应用。 Hadoop主要开发厂商——INTEL 5.东软基于HADOOP的大数据应用建议 内容提要 1.大数据背景介绍 2. HADOOP体系架构 3. 基于HADOOP的大数据产品分析 4. 基于HADOOP的大数据行业应用分析 大数据应用行业分析 应用可能性 电信 政府(公共事业) 交通 金融 医疗 教育 能源(电力/石油) 纵轴契合度: 表示该用户的IT应用特点与大数据特性的契合程度; 横轴应用可能性:表示该用户出于主客观因素在短期内投资大数据的可能性; 注: 该位置为分析师访谈的综合印象,为定性分析,图中位置不代表具体数值 High Mid Low Low Mid High 优先关注行业用户 应用特点与大数据技术有较高的契合度,在主客观条件上也有较高的应用可能性。 值得关注行业用户 应有特点与大数据的契合度及应用可能性综合较高 适当关注行业用户 两个维度暂时都不具备优势,可适当给予关注 互联网(电子商务) 契合度 流通 零售 制造 金融行业 互联网 医疗行业 能源行业 电信行业 大数据行业应用分析——互联网行业 政府行业 互联网行业拥抱大数据的关键因素 互联网大数据技术的应用,会首先带动社会化媒体、电子商务的快速发展,其他的互联网分支也会紧追其后,整个行业在大数据的推动下将会蓬勃发展。 互联网行业大数据需求分析 互联网行业对数据实时分析要求较高,例如广告监测、B2C业务,往往要求在数秒内返回上亿行数据的分析,从而达到不影响用户体验和快速准确营销的目的。 目前互联网企业面对大数据,会普遍感觉到实时分析能力差、海量数据处理效率低、缺少分析方法、分析软件能力差等问题。 互联网行业大数据分析面临的主要问题 公司 具体应用 HADOOP在阿里巴巴 用于处理商业数据的排序,并将其应用于阿里巴巴的ISEARCH搜索引擎,垂直商业搜索引擎。节点数: 15台机器的构成的服务器集群 服务器配置: 8核CPU,16G内存,1.4T硬盘容量 HADOOP在百度 HADOOP主要应用日志分析,同时使用它做一些网页数据库的数据挖掘工作。 节点数:10 - 500个节点。 周数据量: 3000TB HADOOP在Facebook 主要用于存储内部日志的拷贝,作为一个源用于处理数据挖掘和日志统计。 主要使用了2个集群:一个由1100台节点组成的集群,包括8800核CPU(即每台机器8核),和12000TB的原始存储(即每台机器12T硬盘),一个有300台节点组成的集群,包括2400核CPU(即每台机器8核),和3000TB的原始存储(即每台机器12T硬盘),由此基础上开发了基于SQL语法的项目:HIVE HADOOP在TWITTER 使用HADOOP用于存储微博数据,日志文件和许多中间数据 使用基于HADOOP构件的Cloudera's CD

您可能关注的文档

文档评论(0)

chenchuntao0001 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档