- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
HADOOP测试常见问题和测试方法
HADOOP测试常见问题和测试方法
HADOOP测试常见问题和测试方法2010年09月25日下午02:42随着分布式计算技术的推广,越来越多的大数据计算任务迁移到hadoop平台上进行,模型类的hadoop应用也越来越多。经过这一段时间在hadoop上的测试项目,在此简单分享下hadoop上项目测试的经验。本文主要介绍项目测试过程中一些常见的现象以及问题的说明和一些常见的测试方法
一.测试常见问题
1,reduce输出文件,上传文件,下载文件等操作的目的文件的删除。
【现象】程序第一次运行还是成功的,数据和程序都没有修改,同样的命令,运行第二次的时候,怎么就失败了呢?
【问题说明】由于hdfs文件系统没有覆盖写的特性。对于reduce的输出,本地上传文件到hdfs上,下载hdfs文件到本地等操作,当目的文件已经存在,这些操作均会失败。
【测试方法】对于具有上述操作的程序,一定要在程序运行前把对应的目的文件删除,特别是具有多轮迭代程序的临时目录需要清楚。
2,HADOOP_HOME环境变量的设置
【现象】在自己独自使用的测试机上,利用hadoop命令新建了一个目录,并利用hadoop dfs– ls path命令能够查看到该目录存在,换到一个公用的机器上就找不到该目录?
【问题说明】同一台测试机器可能会有多个hadoop客户端连接到多个不同的hadoop平台。而当在shell命令行直接输入hadoop命令时,系统默认是使用HADOOP_HOME下的hadoop客户端。当HADOOP_HOME环境变量被别的用户修改后,就会连接到别的hadoop平台,当然就找不到所要的目录:)。
【测试方法】当在程序中使用hadoop命令的时候,一定要指定hadoop命令的路径,特别在rd提供的程序中,hadoop命令的路径一定要可配。
3,Hadoop上程序输入目录的标准化
【现象】程序的输入数据完全没问题:文件路径和格式均正确,为什么结果文件都为空呢?
【问题说明】对于多路输入(即多种格式的输入文件),rd进行设计程序的时候,常常会根据路径名来进行文件类型的判断,进而进行不同的操作。此时,当外界输入的路径名没有标准化(比如存在:./a/,/a//b,/a/./b),map阶段通过比较传递的路径参数和map环境变量获取的当前处理文件路径来判断当前处理的文件块来自哪个目录,结果会判断当前处理的文件不来自任何输入目录,从而无法获取输入数据的类型。(当时针对这个问题排查很久,曾一度认为是hdfs的问题,最后通过查看程序源代码才发现该问题)
【测试方法】出现该情况,首先查看该任务的监控页面:Map input records的输入是否为0,若是为0,则需检查输入数据地址正确性。Map output records是否为0.Map output records代表map的输出,若是为0,那么就是数据在map阶段就被过滤掉,需要检查输入数据的格式正确性。然后查看Reduce input records是否为0,若rduece的输入为0,那输出肯定就为0了。
4,Hadoop副本任务对程序结果的影响
【现象】在reduce中生成的本地文件需要上传到hdfs上。在上传之前,为了避免目的文件存在而导致上传失败,需要先进行删除操作,然后再上传。所有的reduce任务都正常结束,可是结果文件偶尔会有缺失。而且是不能稳定复现。
【问题说明】hadoop运行map,red任务的时候,为了防止单个task运行缓慢,拖累整个任务的完成时间,会对一些task启用备奋task,即多个task运行同一份数据,当一个task运行完成后,系统自动kill掉备份task。这样可能导致备份task被kill前,正确的文件上传后,被备份任务删除,导致最后结果文件的缺失。而该现象还不是稳定复现。
【测试方法】对hdfs上的同一个文件,目录进行操作时,一定要注意并行操作的干扰。特别当在reduce中进行hdfs操作的时候,一定要考虑到副本的影响(该问题比较隐蔽)。解决方案是:1,禁止平台生成副本任务(可以配置启动参数达到目的)。2,在一个统一的单机进行此类操作。比如,现在单机处理好环境,然后启动mapred任务。
5,Reduce数据分桶不均
【现象】通过查看任务的监控页面发现有的reduce运行时间很短,而有的reduce运行时间很长。
【问题说明】既然利用hadoop的任务,处理的数据一定是大数据量的。简单的hash映射分桶可能导致分桶不均,从而多个reduce处理的数据量差别很大。
【测试方法】当前hadoop任务处理的数据很多都上T,若是在处理这么大规模的数据,分桶不均,可能导致单个节点处理数据过大,导致性能降低,甚至可能导致内存超过阈值被平台kill。因此在测试之前,一定要弄清楚,分
您可能关注的文档
- 2017村党支部第一书记年度工作计划.doc
- 20m、35m箱梁预应力张拉计算书.doc
- 20万温州商人给苏州的启示.doc
- 20世纪福克斯公司特刊.doc
- 20岁以上的女生。要有成人的视觉,理性的智慧。如何气.doc
- 20招教你打造通透大气家 小户型经典设计.doc
- 20种学生必备软件.doc
- 21种方式让你玩转三亚.doc
- 21世纪公司的组织结构.doc
- 220kv及以下软母线装置安装技术.doc
- 《2025年养老社区适老化无障碍设施建设人才培养策略》.docx
- 《2025年新能源车环保内饰材料抗过敏与健康安全标准》.docx
- 《2025年充电桩网络发展:城际快充站运营成本控制与收益模式》.docx
- 2026国家管网集团高校毕业生招聘笔试模拟试题(浓缩500题)附参考答案详解(轻巧夺冠).docx
- 《2025年老年护理培训与护工收入水平提升研究》.docx
- 2025年检测机器人行业创新技术及市场应用报告.docx
- 2025年柬埔寨语培训机构教学品牌创新塑造报告.docx
- 2026国家管网集团高校毕业生招聘笔试模拟试题(浓缩500题)附参考答案详解(轻巧夺冠).docx
- 《2025年家用血氧仪产品差异化与健康管理设备行业趋势》.docx
- 2025年婚庆服务行业高端市场拓展策略研究报告.docx
最近下载
- 《童年》思维导图.pdf VIP
- Part 1-2 Unit 3 Shopping 课件-中职高一英语(高教版基础模块1).pptx
- 一人有限责任公司章程(完整版).pdf VIP
- 火力发电工程建设标准强制性条文执行表格-汽机分册精品.doc VIP
- Part 6 Unit 3 Shopping 课件-中职高一英语(高教版基础模块1).pptx
- 中医专科护士进修汇报.pptx VIP
- 基于PLC系统的电梯控制系统设计_毕业设计(论文 ) .pdf VIP
- 全国版本的2025年高中英语课程标准.pptx VIP
- 变频器、步进与伺服系统应用技术 课件全套 向晓汉 第1--7章 变频器基础知识---SINAMICS V90伺服驱动系统的速度、位置和扭矩控制及应用.pptx
- 2025版《义务教育道德与法治新课程标准》.docx VIP
原创力文档


文档评论(0)