- 1、本文档共11页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
计算机研究与发展 ISSN 1000—1239/CN 11—1777/TP
Journal of Computer Research and Development 50(Suppl.):312—321,2013
基于Map—Reduce的大数据缺失值填充算法
金 连1 王宏志1 黄沈滨2 高 宏1
1(哈尔滨工业大学计算机科学与技术学院 哈尔滨 150001)
2(哈尔滨工业大学网络与信息中心 哈尔滨150001)
(msnl9882009@live.cn)
Missing Value Imputation in Big Data Based on Map-Reduce
Jin Lianl,Wang Hongzhil,Huang Shenbin2,and Gao Hon91
1(Department of Computer Science and Technology,Harbin Institute of Technology,Harbin 150001)
2(Network and Information Center,Harbin Institute of Technology,Harbin 150001)
Abstract Missing values are broadly existed in the real datasets.It affects the query quality and
distorts the result of data analysis as well,which will mislead the final decision.The best way to
handle this problem is to replace the missing values beforehand.This paper proposes an imputation
methods based on probabilistic reasoning to deal with categorical attributes.The reasoning process are
proceeded in a Bayesian network constructed according to the correlation between attributes.We
complete these tWO algorithms using Map—Reduce for the parallelization of large data.The
experimental part prove the effectiveness of the construction of Bayesian network and the probabilistic
reasoning. It also gives the parallelization degree of our algorithm in hadoop.
Key words missing value imputation;probabilistic reasoning;Map—Reduce
摘要缺失值大量存在于现实数据库中,这不仅严重影响了信息查询质量,还会扭曲数据挖掘与数据
分析结论,进而误导决策.解决这一问题的最佳方法是预先填充这些丢失的数据.给出了一种基于概率
推理的填充分类属性的算法.推理过程是在一个基于属性相关性而建立起来的贝叶斯网中完成.为实现
大数据处理的并行化,在Map—Reduce框架中给出这两个算法.实验部分分别验证了贝叶斯网构建方法
和概率推理对分类数据处理的有效性,以及算法在hadoop中运行的并行化程度.
关键词缺失值填充;概率推理;Map—Reduce
中图法分类号
由于存储设备损坏,数据录入违反规则或者数
据采集设备能力限制等多种主客观原因,现实数据
库中经常出现缺失值.对于缺失值,传统的处理办法
就是仅保留完整的记录用于分析查询,但这仅仅适
用于缺失率很低的情况,大量信息的丢弃会使数据
分布产生偏斜并误导数据分析结论.较为合理的方
法应该是对缺失值进行填充,尽可能恢复丢失信息.
由于其重要性,目前研究人员已经提出一些缺
失值填充方法.最朴素的填充方法就是用均值或者
最常出现的值进行替换,一些填充算法[13采用这种
填充方法对数据进行预处理以达到提高算法效果的
目的.这种插补方法虽然简单易行,但它忽略了属性
收稿日期:2013 05 15
基金项目:国家“九七三”重点基础研究发展计划基金项目(2012CB316200);国家自然科学基金项目611¨130189);国家“八六
三,’高技术研究发展计划基金项目(20
您可能关注的文档
- 3.2动量探究.ppt
- 环境影响评价思考题参考探究.pdf
- NRA账户与OSA账户异同的比较探究.ppt
- 3.2设计一般原则探究.ppt
- NTDT-AJ-01.10电梯施工自检原始记录—有机房曳引式探究.doc
- 3.2声音的特性1探究.ppt
- NTX-G1G2开通手册探究.pdf
- 第六章利用绘图辅助工具精确绘图预案.ppt
- 3.3.1金属晶体探究.pptx
- Numbers(二)与Pages表格的异同-简书探究.pdf
- 2025中国冶金地质总局所属在京单位高校毕业生招聘23人笔试参考题库附带答案详解.doc
- 2025年01月中国人民大学文学院公开招聘1人笔试历年典型考题(历年真题考点)解题思路附带答案详解.doc
- 2024黑龙江省农业投资集团有限公司权属企业市场化选聘10人笔试参考题库附带答案详解.pdf
- 2025汇明光电秋招提前批开启笔试参考题库附带答案详解.pdf
- 2024中国能建葛洲坝集团审计部公开招聘1人笔试参考题库附带答案详解.pdf
- 2024吉林省水工局集团竞聘上岗7人笔试参考题库附带答案详解.pdf
- 2024首发(河北)物流有限公司公开招聘工作人员笔试参考题库附带答案详解.pdf
- 2023国家电投海南公司所属单位社会招聘笔试参考题库附带答案详解.pdf
- 2024湖南怀化会同县供水有限责任公司招聘9人笔试参考题库附带答案详解.pdf
- 2025上海烟草机械有限责任公司招聘22人笔试参考题库附带答案详解.pdf
文档评论(0)