基于Hadoop的大数据处理关键技术综述22.pptxVIP

下载本文档

3
0
约4.36千字
约 22页
2021-09-05 发布于河北
举报
版权申诉

基于Hadoop的大数据处理关键技术综述22.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Hadoop的大数据处理关键技术综述2015.6.15Hadoop大数据背景介绍Content1定义、特点大数据对系统的需求、大数据和云计算的关系大数据市场分析大数据处理的技术关键2Hadoop原理、优点Hadoop体系架构Hadoop核心设计：MapReduce、HDFS大数据背景介绍1定义为了更为经济的从高频率获取的、大容量的、不同结构和类型的数据中获取价值，而设计的新一代架构和技术特点大数据对系统的需求High performance –高并发读写的需求高并发、实时动态获取和更新数据Huge Storage –海量数据的高效率存储和访问的需求类似SNS网站，海量用户信息的高效率实时存储和查询High Scalability High Availability –高可扩展性和高可用性的需求需要拥有快速横向扩展能力、提供7*24小时不间断服务大数据和云计算的关系云计算改变了IT,而大数据则改变了业务云计算是大数据的IT基础，大数据须有云计算作为基础架构，才能高效运行通过大数据的业务需求，为云计算的落地找到了实际应用大数据市场分析2011年是中国大数据市场元年，一些大数据产品已经推出，部分行业也有大数据应用案例的产生。2012年-2016年，将迎来大数据市场的飞速发展。2012年中国大数据市场规模达到4.7亿元，2013年大数据市场将迎来增速为138.3%的飞跃，到2016年，整个市场规模逼近百亿。政府、互联网、电信、金融的大数据市场规模较大，四个行业将占据一半市场份额。由于各个行业都存在大数据应用需求，潜在市场空间非常可观。大数据处理的技术关键分析技术：数据处理：自然语言处理技术；统计和分析：地域占比，文本情感分析，A/B test，top N排行榜；数据挖掘：建模，聚类，分类，排名；模型预测：预测模型，机器学习，建模仿真。存储技术：结构化数据：海量数据查询、统计、更新等操作效率低非结构化数据：图片、视频、word、pdf、ppt等文件存储，不利于检索，存储和查询半结构化数据：转换为结构化数据或者按照非结构化存储。大数据技术：数据采集：ETL工具；数据存取：关系数据库，NoSQL，NewSQL,等基础架构支持：云存储，分布式文件系统等；计算结果展现：云计算，标签云，关系图等。解决方案：Hadoop（MapReduce技术）、MongoDB、流计算（twitter的strom和yahoo!的S4）Hadoop2大数据主要应用技术——HadoopHadoop最先是由Apache公司在2005年引入的，起源于google开发的MapReduce和Google File System（GFS）项目。Hadoop作为新一代的架构和技术，因为有利于并行分布处理 “大数据”而备受重视。 Apache Hadoop 是一个用java语言实现的软件框架，在由大量计算机组成的集群中运行海量数据的分布式计算，它可以让应用程序支持上千个节点和PB级别的数据。 Hadoop是项目的总称，主要是由分布式存储（HDFS）、分布式计算（MapReduce）等组成。Hadoop原理Hadoop原理假设系统每秒处理4000个文件=处理4千万个文件10000秒约为2.7小时处理400万个文件约为17分钟=切分成十台机器处理结果合并处理400万个文件约为17分钟=输出处理4千万个文件……约为17分钟=处理400万个文件优点可扩展：不论是存储的可扩展还是计算的可扩展都是Hadoop的设计根本。经济：框架可以运行在任何普通的PC上。可靠：分布式文件系统的备份恢复机制以及MapReduce的任务监控保证了分布式处理的可靠性。高效：分布式文件系统的高效数据交互实现以及MapReduce结合Local Data处理的模式，为高效处理海量的信息作了基础准备。不适合存储小文件（不建议）大量的随机读（不建议）对文件的修改（不支持）应用模式为：write-once-read-many存取模式Pig是一个基于Hadoop的大规模数据分析平台，Pig为复杂的海量数据并行计算提供了一个简易的操作和编程接口hive是基于Hadoop的一个工具，提供完整的sql查询功能，可以将sql语句转换为MapReduce任务进行运行Chukwa是基于Hadoop的集群监控系统，由yahoo贡献ZooKeeper：高效的，可扩展的协调系统,存储和协调关键共享状态HBase是一个开源的，基于列存储模型的分布式数据库MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算HDFS是一个分布式文件系统。有着高容错性的特点，并且设计用来部署在低廉的硬件上，适合那些有着超大数据集的应用程序Hadoop体系架构PigHiveChuKwaMapReduceHBaseZo

您可能关注的文档

文档评论（0）

老师驿站 + 关注: 官方认证

文档贡献者

专业做教案，有问题私聊我

咨询Ta 进入空间

认证主体莲池区卓方网络服务部

IP属地河北

统一社会信用代码/组织机构代码: 92130606MA0GFXTU34

1亿VIP精品文档

更多 >

基于Hadoop的大数据处理关键技术综述22.pptxVIP