稀疏编码的最近邻填充算法-计算机应用研究.DOC

下载文档 降价啦

2
0
约1.35万字
约 7页
2019-03-02 发布于天津
举报
版权申诉
保障服务

稀疏编码的最近邻填充算法-计算机应用研究.DOC

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

稀疏编码的最近邻填充算法-计算机应用研究

计算机应用研究 Journal of Application Research of Computers -------------------------- 基金项目：国家自然科学基金和、国家863项目（2012AA011005）、国家973项目（2013CB329404）、广西自然科学基金（ 2012GXNSFGA060004）、广西八桂创新团队和广西百人计划、广西高校科学技术研究重点项目2013ZD041 作者简介：苏毅娟（1976-），女，广西桂林人，副教授，研究方向：机器学习和数据挖掘；程德波+(1990-)，男，通讯作者，江西丰城人，硕士，研究方向：数据挖掘、机器学习，E-mail:7294835098@; 宗鸣（1990-），男，江苏泰州人，硕士，研究方向：机器学习、数据挖掘；李凌（1988-），男，湖南衡阳人，硕士，研究方向：数据库、数据库安全；朱永华（1994-）男，广西桂林人，本科，研究方向：数据挖掘稀疏编码的最近邻填充算法* 苏毅娟1 , 程德波2 , 宗鸣2 , 李凌2 ,朱永华3 广西师范学院，南宁530023；2.广西师范大学计算机科学与信息工程学院，广西桂林 541004 广西大学计算机与电子信息学院, 南宁530004）摘要：针对K最近邻填充算法（K-Nearest Neighbor Imputation，简称KNNI）的参数K值固定问题进行了研究，发现对缺失值填充时，参数K值固定很大程度上影响了填充效果。为此，提出了基于稀疏编码的最近邻填充算法来解决这一问题，该算法是用训练样本重构每一缺失样本，在重构过程中充分考虑了样本之间的相关性；并用范数来学习确保每个缺失样本用不同数目的训练样本填充，以此解决KNNI算法参数K值选取问题。基于数据性能分析指标RMSE和相关系数的实验比较结果表明，该算法比KNNI算法的效果要好。该算法能很好的避免KNNI算法存在的缺陷，适用于数据预处理环节需要对缺失值进行填充的应用领域。关键词：缺失值填充；稀疏编码；重构；RMSE；相关系数；数据预处理中图分类号：TP181 K Nearest Neighbor Imputation based on Sparse Coding SU Yi-juan1,CHENG De-bo2, ZONG Ming2, LI Ling2 , ZHU Yong-hua3 (1.Guangxi Teachers Education University, Nanning, 530023, Guangxi, China; 2. Guangxi Normal University, Guilin, 541004, Guangxi, China; 3.School of Computer, Electronics and Information, Guangxi University, Nanning, 530004, China) Abstract: Aimed at the parameter K fixed issues of K-Nearest Neighbor Imputation (KNNI) algorithm to research, and found that when imputed the missing values, the fixed value of the parameter K results in a large extent influence of the imputation effect. Therefore, the K Nearest Neighbor based on Sparse Coding (KNNI-SC) algorithm is proposed to solve this problem. This proposed method reconstructed each missing sample with the training samples, in the reconstruction process to fully consider the correlation between samples; and used anorm to learn to ensure each miss