- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
浅述大数据Hadoop技术
浅述大数据Hadoop技术
摘要:随着移动互联网、物联网、共享经济的高速发展,互联网每天都会产生数以万亿的数据,这些海量数据被称作为大数据。在这个大数据时代,数据资源对我们生活产生了巨大影响,对企业经营决策也有着前瞻性指导意义。因此,大数据已经被视为一种财富、一种被衡量和计算价值的不可或缺的战略资源。该文从大数据Hadoop技术谈起、分别从Hadoop的核心技术、生态系统和Hadoop技术在教学中的应用四个方面进行了阐述。
关键词:大数据;Hadoop; HDFS; MapReduce
中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2017)32-0010-02
当前,我国以信息技术为主导的创新经济高速发展,特别是依托于移动互联网和物联网技术的网络购物、移动支付、共享单车、微信通信交流等等,给人们生活方式带来了深刻的变革。整个互联网正在从IT(Information Technology)时代向DT(Data Technology)时代?D变,在这个DT时代,人们从被动的数据浏览者转变为主动的数据生产者,人们每天的网络购物信息、各种电子支付信息、使用共享单车信息、微信中浏览朋友圈的信息等等,都会产生数以万亿级的数据,这样庞大的数据如何存储、如何传输、如何计算、如何分析、如何保证数据的完整性和安全性等等一系列新的技术挑战应运而生。然而,Hadoop技术代表着最新的大数据处理所需的新的技术和方法,也代表着大数据分析和应用所带来的新发明、新服务和新的发展机遇。
1 什么是Hadoop
Hadoop是一个由Apache基金会所开发的,开源的分布式系统基础架构。简单地说就是一套免费的分布式操作系统。我们以前使用的计算机系统,都是安装在一台独立主机上的单机版操作系统。例如我们熟知的微软公司的Windows操作系统和苹果公司的Mac OS。而分布式系统则是通过高速网络把大量分布在不同地理位置、不同型号、不同硬件架构、不同容量的服务器主机连结在一起,形成一个服务器集群。分布式系统把集群中所有硬件资源(CPU、硬盘、内存和网络带宽)进行整合统一管理,形成具有极高运算能力,庞大存储能力和高速的传输能力的系统。
Hadoop就是以Linux系统为原型开发的大数据分布式系统。Hadoop具有很强的扩展性,只要是接通网络它就可以不断加入不同地域、不同型号、不同性能的服务器主机,以提升集群的运算、存储和网络带宽,以满足大数据所需要的硬件要求。此外,Hadoop还具有极强的安全性,由于分布式系统数据是存储在不同物理主机上的,而且Hadoop数据一般每个数据存储三份,而且分布不同物理主机上,一旦其中一份数据损坏,其余正常数据会很快替代它,这样很好地解决了数据完整性和安全性问题,为大数据提供了安全高速稳定的系统平台。
2 大数据Hadoop两大核心技术
Hadoop框架最核心的技术就是:HDFS和MapReduce。HDFS为大数据提供了数据存储文件系统;MapReduce则为大数据提供了调度和管理数据的算法。
HDFS(Hadoop Distributed File System)它就像是我们Windows系统中使用的FAT、NTFS文件系统一样,它就是Hadoop的文件格式系统。在单机版系统中,数据是存储在一块物理硬盘上,文件系统把硬盘按照磁道、扇区进行分区然后划分成若干个存储盘,为用户呈现的就是C盘、D盘等。然而,在Hadoop系统中数据是存储在集群不同的物理主机上,为用户呈现的是例如像百度网盘的网络路径形式。用户只要知道网络路径就可以存储数据,不用关心数据具体存储在哪台主机上,HDFS负责完成数据物理硬盘的格式化及存储数据分配到哪个物理主机上的存储管理工作。
MapReduce是Hadoop系统数据调度、传输和硬件资源管理的算法。MapReduce采用“分而治之”的思想,就是把一个大任务化解为若干的小任务,然后在把各个小任务分配到集群的不同结点上,然后在不同结点上完成各自任务,再把各节点的中间结果汇总整合,从而完成最终的大任务得到最终结果。简单地说,MapReduce就是“任务的分解与结果的汇总”,这样大大提高了Hadoop系统的运行效率。
3 大数据Hadoop技术的生态系统
Hadoop是一个开源分布式大数据系统,围绕它形成一系列分布式软件集合,来实现大数据的各项应用。就像我们熟知的Windows系统,需要Office软件来做文字处理工作;用PhotoShop来做图像处理工作;用 MS SQL Server来做数据库管理工作等。为了对大数据进行存储、数据分析、数据挖掘,各大企业经过长期探索在实践中形成了Hadoop为核心的一系列软件集合,我们称它
您可能关注的文档
- 浅述大学生就业心理障碍及其调适.doc
- 浅述大学生就业竞争力.doc
- 浅述大学生就业能力.doc
- 浅述大学生就业求职指导.doc
- 浅述大学生就业能力提升.doc
- 浅述大学生就业指导.doc
- 浅述大学生就业违约问题.doc
- 浅述大学生就业问题.doc
- 浅述大学生就业难.doc
- 浅述大学生就业问题及自身应对措施.doc
- 河北省邯郸市武安市第一中学2025-2026学年高二上学期12月月考英语试题含答案.pdf
- 河北省邯郸市武安市第一中学2025-2026学年高一上学期12月月考语文含答案.pdf
- 湖南省长沙市雅礼中学2025-2026学年高一上学期12月月考英语含答案.pdf
- 浙江省强基联盟2025-2026学年高一上学期12月联考含答案(9科试卷).pdf
- 河北省保定市十校2025-2026学年高二上学期期中考试 含答案(9科试卷).pdf
- 河北省保定市十校2025-2026学年高二上学期期中考试 历史 含答案.pdf
- 湖南省名校联盟暨五市十校联考2025-2026学年高一上学期12月联考政治含答案.pdf
- 山东省德州市夏津第一中学2025-2026学年高一上学期12月月考政治含答案.pdf
- 安徽省庐巢联盟2025-2026学年高二上学期第二次月考政治含答案.pdf
- 安徽省(合肥六中)特色高中教研联谊会联考2025-2026学年高一上学期12月月考物理含答案.pdf
最近下载
- 最新人教版四年级语文上册期末试卷(可打印).doc VIP
- 护理差错类型分析与防范策略.pptx VIP
- 高职-计算机网络技术-说课要点.ppt VIP
- 2、日常行为表现---毛泽东思想和中国特色社会主义理论体系概论.docx VIP
- 初中英语新课程标准测试题(3套)含答案.pdf VIP
- 建设项目使用林地可行性报告编写规范.docx VIP
- 项目经理年终工作总结汇报课件.pptx VIP
- QJ3057-1998 航天用电气、电子和机电(EEE)元器件保证要求.pdf VIP
- 毛泽东思想和中国特色社会主义理论体系概论论文.docx VIP
- 中国马克思主义与当代 2024版 教材课后思考题参考答案.docx
原创力文档


文档评论(0)