- 2
- 0
- 约3.66千字
- 约 4页
- 2018-10-01 发布于天津
- 举报
试验报告数据预处理a数据源分析数据格式处理要求忽略空行
实验报告
数据预处理
数据源分析
数据格式
处理要求
忽略空行和非”movieId,userId,rating,dataRated”行
经统计,发现每个movieId可能有上千条userId的记录,且整个数据文件解压后共2.4G,这样movieId和userId的数量可能上百万或千万,这样大的数据量不可能用一个矩阵存储moive和user的关系
用2.4G的数据做作业,不论从时间效率上还是从实验室hadoop机群的可靠性上,都是不现实的。而且,也不利于调试程序中出现的错误。这里,我截取了原文件的前20362行作为小容量的测试数据,数据中movieId从1到10
预处理方法
将每行记录按key为movieId进行聚合,聚合后的每行movieId后,为一列和movieId有关系的userId和rating值
Mapper:(offset, (movieId,userId,rating,dataRated))(
(movieId,(userId,rating))
Reducer:( (movieId,(userIdrating_list))
记录格式:
“movieId user1rating1,user2rating2,……,userNratingN”(按userId字符升序排列)
选出canopies
总体思路:
对于(一)产生的数据,每一个movieId可看成一个
您可能关注的文档
最近下载
- 七年级信息技术教案下册4篇.pdf VIP
- XXX公司双控机制建设实施手册(范本).docx VIP
- 口算大通关五下人教数学 26春.docx VIP
- 苏教版初三化学知识点.pdf VIP
- 孙桓《机械原理》(第9版)笔记和课后习题(含考研真题)详解答案.pdf VIP
- 4 第4讲 观赏动物学观赏鱼与观赏龟.ppt VIP
- 识别危险和与安全有关的特性-问题清单 YY T 1437-2023 附录A.doc VIP
- 一种聚晶金刚石复合片抛光面色差的消除方法.pdf VIP
- 安托万(Antoine)常数表_修正版.pdf VIP
- (正式版)DB6101∕T 3134-2022 《综合减灾示范社区创建规范》.pdf VIP
原创力文档

文档评论(0)