基于MapReduce的大数据缺失值填充算法探究.pdf

基于MapReduce的大数据缺失值填充算法探究.pdf

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
计算机研究与发展 ISSN 1000—1239/CN 11—1777/TP Journal of Computer Research and Development 50(Suppl.):312—321,2013 基于Map—Reduce的大数据缺失值填充算法 金 连1 王宏志1 黄沈滨2 高 宏1 1(哈尔滨工业大学计算机科学与技术学院 哈尔滨 150001) 2(哈尔滨工业大学网络与信息中心 哈尔滨150001) (msnl9882009@live.cn) Missing Value Imputation in Big Data Based on Map-Reduce Jin Lianl,Wang Hongzhil,Huang Shenbin2,and Gao Hon91 1(Department of Computer Science and Technology,Harbin Institute of Technology,Harbin 150001) 2(Network and Information Center,Harbin Institute of Technology,Harbin 150001) Abstract Missing values are broadly existed in the real datasets.It affects the query quality and distorts the result of data analysis as well,which will mislead the final decision.The best way to handle this problem is to replace the missing values beforehand.This paper proposes an imputation methods based on probabilistic reasoning to deal with categorical attributes.The reasoning process are proceeded in a Bayesian network constructed according to the correlation between attributes.We complete these tWO algorithms using Map—Reduce for the parallelization of large data.The experimental part prove the effectiveness of the construction of Bayesian network and the probabilistic reasoning. It also gives the parallelization degree of our algorithm in hadoop. Key words missing value imputation;probabilistic reasoning;Map—Reduce 摘要缺失值大量存在于现实数据库中,这不仅严重影响了信息查询质量,还会扭曲数据挖掘与数据 分析结论,进而误导决策.解决这一问题的最佳方法是预先填充这些丢失的数据.给出了一种基于概率 推理的填充分类属性的算法.推理过程是在一个基于属性相关性而建立起来的贝叶斯网中完成.为实现 大数据处理的并行化,在Map—Reduce框架中给出这两个算法.实验部分分别验证了贝叶斯网构建方法 和概率推理对分类数据处理的有效性,以及算法在hadoop中运行的并行化程度. 关键词缺失值填充;概率推理;Map—Reduce 中图法分类号 由于存储设备损坏,数据录入违反规则或者数 据采集设备能力限制等多种主客观原因,现实数据 库中经常出现缺失值.对于缺失值,传统的处理办法 就是仅保留完整的记录用于分析查询,但这仅仅适 用于缺失率很低的情况,大量信息的丢弃会使数据 分布产生偏斜并误导数据分析结论.较为合理的方 法应该是对缺失值进行填充,尽可能恢复丢失信息. 由于其重要性,目前研究人员已经提出一些缺 失值填充方法.最朴素的填充方法就是用均值或者 最常出现的值进行替换,一些填充算法[13采用这种 填充方法对数据进行预处理以达到提高算法效果的 目的.这种插补方法虽然简单易行,但它忽略了属性 收稿日期:2013 05 15 基金项目:国家“九七三”重点基础研究发展计划基金项目(2012CB316200);国家自然科学基金项目611¨130189);国家“八六 三,’高技术研究发展计划基金项目(20

文档评论(0)

希望之星 + 关注
实名认证
内容提供者

我是一名原创力文库的爱好者!从事自由职业!

1亿VIP精品文档

相关文档