【PPT】基于Hadoop的大数据应用分析-中国大数据.ppt

【PPT】基于Hadoop的大数据应用分析-中国大数据.ppt

  1. 1、本文档共45页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
【PPT】基于Hadoop的大数据应用分析-中国大数据

公司 具体应用 HADOOP在阿里巴巴 用于处理商业数据的排序,并将其应用于阿里巴巴的ISEARCH搜索引擎,垂直商业搜索引擎。节点数: 15台机器的构成的服务器集群 服务器配置: 8核CPU,16G内存,1.4T硬盘容量 HADOOP在百度 HADOOP主要应用日志分析,同时使用它做一些网页数据库的数据挖掘工作。 节点数:10 - 500个节点。 周数据量: 3000TB HADOOP在Facebook 主要用于存储内部日志的拷贝,作为一个源用于处理数据挖掘和日志统计。 主要使用了2个集群:一个由1100台节点组成的集群,包括8800核CPU(即每台机器8核),和12000TB的原始存储(即每台机器12T硬盘),一个有300台节点组成的集群,包括2400核CPU(即每台机器8核),和3000TB的原始存储(即每台机器12T硬盘),由此基础上开发了基于SQL语法的项目:HIVE HADOOP在TWITTER 使用HADOOP用于存储微博数据,日志文件和许多中间数据 使用基于HADOOP构件的Clouderas CDH2系统,存储压缩后的数据文件(LZO格式) HADOOP在雅虎 主要用于支持广告系统及网页搜索 机器数:25000,CPU:8核 集群机器数:? 4000?个节点 ?(2*4cpu boxes w 4*1TB disk 16GB RAM) 互联网行业Hadoop应用 大数据行业应用分析——金融行业 金融行业 互联网 医疗行业 能源行业 电信行业 政府行业 金融行业大数据发展分析 IDC研究显示,数据是重要资产的理念已经在中国金融行业形成共识,数据的真正价值在于能够洞察企业内部规律,数据的洞察力成为金融企业的核心竞争力。在中国金融行业信息化建设中,与信息加工密切相关的大数据管理正逐渐成为与核心业务系统建设、渠道建设和前置建设同等重要的领域。   经过多年的发展与积累,目前中国的大型商业银行和保险公司的数据量已经达到100TB以上级别,并且非结构化数据量在迅速增长。 金融行业大数据需求背景 从未来几年看,金融行业在“十二五”时期面临发展方式转型的挑战,转型主要集中在三大方面:一,建立全面的风险管理体制,向严监管转型;二,从粗放式管理向精细化管理转型;三,从“利润为中心” 向“客户为中心”转型。 大数据在加强风险管控、精细化管理、服务创新等转型中别具现实意义,是实现向信息化银行转型的重要推动力。金融行业应首先在战略层面对大数据进行规划,积极应对大数据时代的挑战,推进并建立数据驱动型发展方式。 金融行业大数据需求分析 摩根大通基于Hadoop的大数据应用 已经开始使用Hadoop技术以满足日益增多的用途,包括诈骗检验、IT风险管理和自助服务。 150PB在线存储数据、30,000个数据库和35亿个用户登录账号。 Hadoop能够存储大量非结构化数据,允许公司收集和存储Web日志、交易数据和社交媒体数据。 数据被汇集至一个通用平台,以方便以客户为中心的数据挖掘与数据分析工具的使用。 Zions银行基于Hadoop的大数据应用 数据仓库存储了120多个不同类型的数据,包括交易日志,日志,欺诈警报,服务器日志,防火墙日志和IDS日志 跨整个企业进行数据挖掘,加快取证调查并提高欺诈侦测,以及整体安全性 利用Hadoop来存储所有数据,并对客户交易和现货异常进行判断,对可能存在欺诈行为提前预警的 基于Hadoop的安全数据仓库,迅速对来自各种源头的恶意软件威胁作出响应并对抗它们 美国地区性银行Zions Bancorp(ZIONS) * 大数据 挑战 发卡量增长迅速:2008年发卡约500万张,2010年增加了一倍。 业务数据增长迅速:随着业务的迅猛增长,业务数据规模也线性膨胀。 数据存储、系统维护、数据有效利用都面临巨大压力。 需求 可扩展、高性能的数据仓库解决方案 能够实现业务数据的集中和整合;可以支持多样化和复杂化数据分析提升信用卡中心的业务效率;通过从数据仓库提取数据,改进和推动有针对性的营销活动。 采用大数据方案后价值体现 实时的商业智能 可以结合实时、历史数据进行全局分析,风险管理部门现在可以每天评估客户的行为,并决定对客户的信用额度在同一天进行调整;原有内部系统、模型整体性能显著提高 秒级营销 Greenplum数据仓库解决方案提供了统一的客户视图,更有针对的进行营销。2011年,中信银行信用卡中心通过其数据库营销平台进行了1286个宣传活动,每个营销活动配置平均时间从2周缩短到2-3天。 EMC Green-plum 中信银行信用卡中心基于Hadoop的大数据应用 未来和基于Hadoop的Pivotal HD相融合 大数据行业应用分析——电信行业 金融行业 互联网 医疗行

文档评论(0)

dlmus + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档