一种提高K近邻分类的新方法.docVIP

下载本文档

5
0
约6.91千字
约 10页
2018-04-06 发布于北京
举报
版权申诉

一种提高K近邻分类的新方法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种提高K近邻分类的新方法　　摘要:KNN算法是数据挖掘技术中比较常用的分类算法。但是,当样本容量较大以及特征属性较多时, KNN 算法分类精度和效率将大大降低。该文将主分量分析(PCA)与粗糙集理论(RS)应用于样本特征提取中,首先采用PCA对输入向量进行甄别,应用粗糙集理论约简与分类无关或关系不大的向量。然后利用模拟退火算法实现随机属性子集选择,组合K 近邻分类器,最后利用简单投票方法,对多重K近邻分类器进行组合输出,有效地改进了K近邻法的分类精度和效率。　　关键词:主分量分析;粗糙集;模拟退火;k近邻;组合模型　　中图分类号:TP393文献标识码:A文章编号:1009-3044(2010)08-1989-03 　　A New Method to Scale Up Effect of K-Nearest-Neighbor 　　RU Qiang-xi1, LIU Yong2 　　(1.Department of Mathematics and Physics Teaching,Luoyang Institute of Science and Technology, Luoyang 471023, China;2.Department of Mathematics and Physics Teaching,Luoyang Institute of Science and Technology, Luoyang 471023, China) 　　Abstract: The k-Nearest-Neighbor(KNN) algorithm has been widely used in data mining areas. But, When the samples become more and more large and characteristic attributes become more and more numerous, then KNN algorithm becomes much lower. A improved KNN algorithm PRMKNN is proposed in the paper ,which first applies Principle Component Analysis(PCA)and rough set theory(RS)torealize feature extraction, We use PCA on selecting the input vector,and use RS on reducing the inessential factors for classification ,then simulation annealing algorithm is used to generate random subset of attributes, and with the simple voting method, the outputs of the multiple KNN classifiers are combined. The method can improve the classification precision and efficiency effectively. 　　Key words: principle component analysis; rough set; simulated annealing; k-Nearest-Neighbor; combination model 　　数据分类属于模式分类的一个分支。它旨在生成一个分类函数或分类模型,由该模型把数据库的数据项映射到某一给定类别中。目前机器学习、专家系统、统计学和神经生物学相关领域的研究者提出了许多分类方法,如决策树算法、关联规则算法、贝叶斯算法、神经网络算法、遗传算法、k最近邻算法、基于案例的推理算法等。　　kNN是一种无参数消极分类方法,属于最近邻分类方法的一种推广。K近邻算法从测试样本点x开始生长,不断地扩大区域,直到包含进k个训练样本点为止,并且把测试样本点x的类别归为这最近的k个训练样本点中出现频率最大的类别。　　由于kNN算法的简单有效性,目前得到了较为广泛的应用。但是,当样本容量较大以及特征属性较多,并且,如果属性集包含不相关属性或弱相关属性, 那么分类精度和分类效率将大大降低。经过研究发现,如果在使用 KNN 算法之前对样本的属性进行约简,删除那些对分类结果影响较小的属性,则可以用KNN 算法得到更好的分类效果。　　目前在特征向量的降维方法中,主分量分析方法(PCA)是主要的一种方法。近年来,粗糙集(Rough Se