- 1、本文档共14页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据的典型应用场景及展望2015年1月24号,2015 China Hadoop Summit技术峰会在北京如期举行。本次大会作为国内大数据行业最具影响力的IT大会,吸引了众多从事Hadoop研究与推广的权威技术专家、Hadoop技术爱好者和IT厂商前往参加。现任星环信息科技(上海)有限公司联合创始人兼首席技术官,曾任英特尔数据中心软件部亚太区CTO的孙元浩老师在本次大会上带来了主题为《2014年大数据的典型应用场景及展望》的分享,本文主要针对目前Hadoop主流应用场景,实时流数据的处理以及大数据技术给未来生活的设想等内容进行了整理。四年前的硅谷,风投埃里森拿出一亿美金来投资大数据公司,他认为Hadoop技术在未来的若干年中会从底层的数据平台,从传统的关系型数据库进行迁移。数据的分析层会被全新的数据分析工具所替代,可视化层和应用分析会有更多的新工具出现,并认为这个市场将达到几百亿美金的规模。过去几年,Hadoop的发展非常迅猛。我们常讲大数据的四V特征,Hadoop在大数据处理上表现出的处理量、性能、挖掘能力的提升和碎片化处理能力,使其得到越来越广泛的应用。一、Hadoop的主流应用场景:数据仓库的主要组成部分传统的企业有若干个主机,用于销售、运营管理等等,产生的数据首先经过ODS层,将数据从多个业务系统中集中起来,进行清洗、转换等集成操作,然后将过加工的数据进入企业IT架构的核心——数据仓库进行统计、挖掘和分析。最后用可视化工具进行展现。这是传统的企业数据仓库的架构,经常采用主流的甲骨文等数据库技术来实现。Hadoop作为数据仓库组成部分的四个驱动力互联网公司早年的时候,是把Hadoop做在数据仓库的核心,比如Facebook早期的时候是从服务器采集是通过实时的日志的采集工具,经过Hadoop把Hadoop作为数据分析工具,呈现把结果放在甲骨文中做展现。互联网公司之所以这么做,是因为互联网数据量大到在传统的数据库不能处理。现在传统的企业也面临同样的问题,将Hadoop作为数据仓库主要组成部分有四个驱动力:效率:传统的数据仓库技术已经面临非常繁重的数据分析任务,处理的延迟从一天到了一周。 成本:传统的数据架构成本动辄几千万。Hadoop可以实现成本若干倍的降低。 数据来源多样:视频、音频等企业非结构化数据来源增多。MapReduce对于非结构化或半结构化数据的读取非常有效。 数据分析需求的演进: 数据分析不再只满足于统计。使用Hadoop的技术,能够对数据进行深度的挖掘和分析,实现对未来的预测。 Hadoop改变企业数据仓库架构的线路图第一步:数据仓库的补充2011、2012年的时候 Hadoop主要是作为数据仓库的补充在做数据的清洗。这一层Hadoop很擅长。Hadoop的优势是能够把计算任务对全要素进行统计分析,这是方式非常适合简单的场景,早年Hadoop的最佳用途是作为ETL的平台,第二步:逐渐进入核心随着Hadoop生态系统逐渐完善,有更多的数字化工具支持Hadoop, Hadoop开始进入数据仓库的核心领域。有些企业开使用Hadoop来直接做数据可视化,在有些行业中已经开始用Hadoop逐渐取代传统的关系数据库来建立数据仓库。从整个的数据仓库的架构来看,有一半的架构已经开始被Hadoop覆盖了。第三步:Hadoop使资源管理变为可能,最终将取代企业完整的整据仓库在一两年之内有些企业完整的数据仓库架构都可能会被Hadoop取代掉。过去企业数据仓库的时候任务很繁重,系统效率低下。造成这种状况的重要原因是,客户把过多的负载放在数据仓库上面,数据仓库本身又没有资源配合的方式。Hadoop2.0推出了管理框架,使得资源管理变成了可能,使得数据仓库支撑多个部门的数据分析和访问更加高效。举例来说,每个部门的业务都是动态创建虚拟集群实现的,每个集群都有一定的资源配额,这样的配额用时不会超过这个配额,使得用户任何的负载不会影响其他的用户,这成为数据仓库里一个重要的实现,数据仓库完全平滑,24小时不间断运行的保障。过去上千人在访问Hadoop的时候,也是通过调度机制实现的,随着Hadoop2.0的出现和资源管理能力的提升,通过资源管理层可以方便的配置资源。我们可以设定CPU的内存和存储资源,每个部门使用的时候有配额的最低保障。当另外一个部门的用户上线使用的时候,比如创建了一个集群,这时会把你的部分资源还给后面的第二个用户,原来第一个用户的资源被收缩了,更多的用户进来的时候,第一个用户的资源被进一步收缩,收缩到一个最低的指标。一方面充分保障了每个用户最低资源的配额,第二也保证系统整体运行的情况下可以充分有效利用整体的计算资源。二、随着云计算和物联网的逐渐兴起,实时流数据的处理将成为关注重点云计算和物联网使得数据呈现两个主要特点。首先,
您可能关注的文档
- 大学生素用质培养如何适应企业需求.doc
- 大学生素质拓展的重x要性.doc
- 大学生职业咨用询师认证培训要求.doc
- 大学生职业生涯规划大多赛策划.doc
- 大学生职业生涯规尾划书(会计系).doc
- 大学生职个业规划大赛方案.doc
- 大学生职节业规划策划书模板.doc
- 大学生职业规划大赛—在路上,等待破u茧成蝶(李维).doc
- 大学生自功主创业的意见.doc
- 大学生论函文提纲格式费下载.doc
- 《GB/T 32879-2025电动汽车更换用电池箱连接器》.pdf
- 中国国家标准 GB/T 21649.2-2025粒度分析 图像分析法 第2部分: 动态图像分析法.pdf
- 中国国家标准 GB/T 20899.9-2025金矿石化学分析方法 第9部分:碳量的测定.pdf
- 《GB/T 20899.9-2025金矿石化学分析方法 第9部分:碳量的测定》.pdf
- GB/T 20899.9-2025金矿石化学分析方法 第9部分:碳量的测定.pdf
- 《GB/T 33820-2025金属材料 延性试验 多孔状和蜂窝状金属高速压缩试验方法》.pdf
- GB/T 33820-2025金属材料 延性试验 多孔状和蜂窝状金属高速压缩试验方法.pdf
- 中国国家标准 GB/T 33820-2025金属材料 延性试验 多孔状和蜂窝状金属高速压缩试验方法.pdf
- GB/T 45910-2025信息技术 生物特征识别模板保护方案的性能测试.pdf
- 《GB/T 45910-2025信息技术 生物特征识别模板保护方案的性能测试》.pdf
最近下载
- 《成人住院患者静脉血栓栓塞症的预防护理2023版团体标准》解读.pptx
- 开题报告医学PPT模板.pptx VIP
- 2011中考英语作文指导及范文.doc VIP
- 高考英语总复习-第二部分-语法填空专项突破-专题二-无提示词填空-第六讲-并列句和状语从句-市赛课公.pptx VIP
- 工会招聘考试试题及答案.doc VIP
- 河北省中考英语复习指导课件.pptx VIP
- 供应商评级管理办法.docx VIP
- 2025年人教版高一下学期期末考试数学试题与答案解析(共五套) .pdf VIP
- 2025年河北沧州渤海新区黄骅市事业单位公开招聘工作人员130名笔试备考试题及答案解析.docx VIP
- 党纪党规知识测试题及答案_党规知识测试题及答案.doc VIP
文档评论(0)