试验报告数据预处理a数据源分析数据格式处理要求忽略空行.DOCVIP

  • 2
  • 0
  • 约3.66千字
  • 约 4页
  • 2018-10-01 发布于天津
  • 举报

试验报告数据预处理a数据源分析数据格式处理要求忽略空行.DOC

试验报告数据预处理a数据源分析数据格式处理要求忽略空行

实验报告 数据预处理 数据源分析 数据格式 处理要求 忽略空行和非”movieId,userId,rating,dataRated”行 经统计,发现每个movieId可能有上千条userId的记录,且整个数据文件解压后共2.4G,这样movieId和userId的数量可能上百万或千万,这样大的数据量不可能用一个矩阵存储moive和user的关系 用2.4G的数据做作业,不论从时间效率上还是从实验室hadoop机群的可靠性上,都是不现实的。而且,也不利于调试程序中出现的错误。这里,我截取了原文件的前20362行作为小容量的测试数据,数据中movieId从1到10 预处理方法 将每行记录按key为movieId进行聚合,聚合后的每行movieId后,为一列和movieId有关系的userId和rating值 Mapper:(offset, (movieId,userId,rating,dataRated))( (movieId,(userId,rating)) Reducer:( (movieId,(userIdrating_list)) 记录格式: “movieId user1rating1,user2rating2,……,userNratingN”(按userId字符升序排列) 选出canopies 总体思路: 对于(一)产生的数据,每一个movieId可看成一个

文档评论(0)

1亿VIP精品文档

相关文档