- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
稀疏编码的最近邻填充算法-计算机应用研究
计算机应用研究
Journal of Application Research of Computers
--------------------------
基金项目:国家自然科学基金和、国家863项目(2012AA011005)、国家973项目(2013CB329404)、广西自然科学基金( 2012GXNSFGA060004)、广西八桂创新团队和广西百人计划、广西高校科学技术研究重点项目2013ZD041
作者简介:苏毅娟(1976-),女,广西桂林人,副教授,研究方向:机器学习和数据挖掘;程德波+(1990-),男,通讯作者,江西丰城人,硕士,研究方向:数据挖掘、机器学习,E-mail:7294835098@; 宗鸣(1990-),男,江苏泰州人,硕士,研究方向:机器学习、数据挖掘;李凌(1988-),男,湖南衡阳人,硕士,研究方向:数据库、数据库安全;朱永华(1994-)男,广西桂林人,本科,研究方向:数据挖掘
稀疏编码的最近邻填充算法*
苏毅娟1 , 程德波2 , 宗 鸣2 , 李凌2 ,朱永华3
广西师范学院,南宁530023;2.广西师范大学计算机科学与信息工程学院,广西桂林 541004
广西大学 计算机与电子信息学院, 南宁530004)
摘 要:针对K最近邻填充算法(K-Nearest Neighbor Imputation,简称KNNI)的参数K值固定问题进行了研究,发现对缺失值填充时,参数K值固定很大程度上影响了填充效果。为此,提出了基于稀疏编码的最近邻填充算法来解决这一问题,该算法是用训练样本重构每一缺失样本,在重构过程中充分考虑了样本之间的相关性;并用范数来学习确保每个缺失样本用不同数目的训练样本填充,以此解决KNNI算法参数K值选取问题。基于数据性能分析指标RMSE和相关系数的实验比较结果表明,该算法比KNNI算法的效果要好。该算法能很好的避免KNNI算法存在的缺陷,适用于数据预处理环节需要对缺失值进行填充的应用领域。
关键词:缺失值填充;稀疏编码;重构;RMSE;相关系数;数据预处理
中图分类号:TP181
K Nearest Neighbor Imputation based on Sparse Coding
SU Yi-juan1,CHENG De-bo2, ZONG Ming2, LI Ling2 , ZHU Yong-hua3
(1.Guangxi Teachers Education University, Nanning, 530023, Guangxi, China; 2. Guangxi Normal University, Guilin, 541004, Guangxi, China; 3.School of Computer, Electronics and Information, Guangxi University, Nanning, 530004, China)
Abstract: Aimed at the parameter K fixed issues of K-Nearest Neighbor Imputation (KNNI) algorithm to research, and found that when imputed the missing values, the fixed value of the parameter K results in a large extent influence of the imputation effect. Therefore, the K Nearest Neighbor based on Sparse Coding (KNNI-SC) algorithm is proposed to solve this problem. This proposed method reconstructed each missing sample with the training samples, in the reconstruction process to fully consider the correlation between samples; and used anorm to learn to ensure each miss
文档评论(0)