- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Hadoop平台大数据应用系统解决方案
基于Hadoop平台大数据应用系统解决方案
摘要:当前在进行大数据应用过程中存在三方面的问题,分别是大数据的存储、分析和管理的问题,如果不能有效解决这些问题,将会直接影响其发展和应用。下面在总结前人经验的基础上,根据当前研究所得到的成果,提出有效的解决策略,希望给有关人士一些借鉴。
关键词:Hadoop平台;大数据;应用系统
当前移动电子商务、云计算、互联网得到的快速发展,在整个数据库市场中大数据占据很重要的地位,而且这一趋势还在继续发展,由此可见,基于Hadoop平台的大数据将会得到广泛的推广。大数据具有广度宽、深度深、规模大的特点,而且处理时间短,要求处理效果高,当前在应用中存在一定问题,下面就深入分析这方面的问题。
1分析大数据的存储问题和解决方案
1.1大数据的存储问题
HDFS属于一种分布式文件系统,其中一个文 件以多个block的形式存放在多个Namenode节点上,每个block有多个副本,副本存放的位置根据HDFS放置算法来决定,但是在这方面还要注意,在HDFS中缺省block副本数和大小,但是对于所缺省的参数可以重新进行设置,对于CLIENT文件,可以临时设置两个参数,有效提高了系统的灵活性,在文件中其逻辑处理单元、重要性、大小都不同。由此可见,HDFS可以?Ψ墙峁够?数据进行存储,对数据实施分布式计算,具有较高的性价比,系统运行可靠性比较高,通过增加机器设备,就可以保证系统的存储能力。HDFS文件在读写并行方面存在问题,其已经可以读读并行,但是写读并行、读写并行中会受到制约,对于正在写操作的文件,读用户看不到最后的block内容。
1.2相应的解决方案
针对HDFS文件在读写并行方面存在问题,技术人员分析了HDFS文件组织方式,其真实数据文件和元数据文件是单独存放的,其中的每个数据块都和本地文件系统相对应,因此在处理这一问题时,先不要改动HDFS的主要接口和主要特点,利用这方面的逻辑处理功能,编号算法等,对不同的HDFS文件进行块集合组合,可以有效解决问题。
2 大数据分析过程的问题和解决方案
2.1 Hadoop生态系统存在的问题
Hadoop生态系统进行数据分析时有其自己的特点,对板结构化的数据、非结构的化的数据比较容易处理,系统拥有很好的容错性和扩展性,该系统的接口类型很多,适应运行环境的异构性,该计算模型可以采用并行方式计算,因此该系统可以得到很好的性能,但是这一系统在相同条件下,和商业并行数据库进行测试对比,其在性能方面存在很大的劣势。
2.2有效的解决方案分析
为了解决上述的问题,可以从三个方面进行分析,第一点,Hadoop生态系统开始研发时是针对半结构化数据、非结构化数据;第二点,这一生态系统容错性和可扩展性非常好,技术人员在改进时,如果增加节点数量就可以得到很好的性能,因此在使用中不需要在相同条件下和并行数据库进行对比。在增加了节点的数量后,没有必要对SQL接口查询命令进行修改,也没有必要对编程语言进行修改,达到很好的效果。机器使用的是中低端设备,其对性价比没有较大的影响,当前生态系统自身也可以对其问题、性能等进行优化,例如数据的压缩优化、job调度程序优化,体系结构优化等。当前主要有两种解决方式,分别是混合型MapReduce解决方式,其主要吸收了并行数据中的一些特点,还有一种是经典型MapReduce解决方式,主要针对生态系统中的HadoopDB项目和HadoopDB MapRe-duce项目。
3大数据管理问题和解决方案
3.1分析大数据管理中有待解决的问题
一般在大数据管理中都不重视易用性,其中的hadoop也有类似的问题,但是在商业解决方案中技术人员就注意到了这一点,因此在设计中具有针对性,有效解决了这一问题。例如IBM大数据解决方案中,BI-ginsights对相应的集群、作业运行、HDFS文件管理有一个统一的管理模式,管理中系统具有可视化功能,对于大数据解决方案而言,也有赖于内部的集群管理系统。对于一个完整的大数据解决方案而言,必须使用到一体化的管理系统,这一系统在管理中包括很多的项目,例如通过大量机器构成大集群和小集群,具有多种数据来源,涉及到很多作业的运行和部署。在管理中如果只使用手工操作,没有专业的平台和技术工具等,不能保证系统的工作效率,间接也会影响系统的进一步推广。相关企业虽然使用这一生态系统建立了平台,没有一个完整的集群配置平台,在删除节点和增加节点时必须进行手工操作,进行参数配置时主要依靠个人经验,工作中没有可靠的模拟器来帮助。从当前的解决方案中分析,在对Hadoop生态系统大数据管理中,主要应用了Ganglia和Sqoop[1]。
3.2分析具体的解决方案
您可能关注的文档
- 基于GIS陆良烟区土壤主要养分空间变异特征.doc
- 基于GIS零售业选址问题分析.doc
- 基于GIS青海省主要农作物种植区划.doc
- 基于GIS高校土地资源信息管理评价系统设计与应用.doc
- 基于GIS高速公路机电设备维护管理信息系统.doc
- 基于GIS高速公路监控管理系统设计与实现.doc
- 基于GIS高速公路绿化管理信息系统.doc
- 基于GIS鲁中地区土地利用动态变化研究.doc
- 基于GIS黄河上游拉干峡―寺沟峡段滑坡危险性评价.doc
- 基于GITEST高职英语多项选择题项目分析.doc
- 2025重庆永川区社会公开招聘社区工作者后备人选350人备考题库必考题.docx
- 2025广东清远市招聘第二批事业编制高层次人才4人参考题库附答案解析.docx
- 2025重庆涪陵区人民政府江东街道办事处招聘3人备考题库汇编.docx
- 2025浙江省宁波生态环境监测中心招聘高层次紧缺人才2人备考题库附答案解析.docx
- 2026水利部有关直属单位招聘高校应届毕业生47人备考题库附答案.docx
- 2026年中国光大银行长沙分行秋季校园招聘备考题库附答案.docx
- 2025福建泉州晋江市人民政府罗山街道办事处招聘编外人员2人(07月11日~07月18日报名)备考题.docx
- 2025福建省妇女儿童发展基金会招聘工作人员2人备考题库附答案解析.docx
- 2025甘肃平凉崇信县第五批青年就业见习岗位招聘43人参考题库附答案.docx
- 2025重庆大渡口区经济和信息化委员会公开招聘公益岗备考题库推荐.docx
原创力文档


文档评论(0)