- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种改进K值最近邻自动分类方法
一种改进K值最近邻自动分类方法 摘 要:K值最近邻法是常用的一种自动分类算法。当待分类文本与样本集中多个决策样本的距离相等的时候,固定的K值取法不能充分利用样本集,给分类结果带来一定的随机性,影响了自动分类的准确性。本文通过对K值最近邻算法的原理进行深入分析,提出了一种K值动态选取的方案,使得K值最近邻算法的分类准确性有了显著的提高。
关键词:K值最近邻算法;自动分类;决策样本选取;KNN
中图分类号:TP302.1
随着互联网的发展,互联网网页信息数量急剧增加,根据中国互联网络信息中心(CNNIC)第31次报告,截至2012年12月底,中国网页数量为1227亿个,其中文本信息网页占绝大多数。网页数量的急剧增加使得对互联网信息的分类需求越发迫切。文本自动分类是数据挖掘领域中一种重要的技术,它从一组已知的训练样样本中发现分类模型,并且使用这个分类模型来预测待分类样本的类别[1]。
K值最近邻算法(KNN算法)[2]是比较常见的一种用来做文本自动分类的算法,最初的近邻法由Cover和Hart于1968年提出[3]。该方法的思路是:如果一个文献在特征空间中的K个最近邻文献中的大多数属于一个类别,则该文献也属于这个类别。KNN算法使用后验概率的估值作为后验概率,是一个次优方法。KNN算法只与邻近的样本有关,通过邻近样本所属的类别来决策,这就使它对于具体的分类体系没有较大的依赖,比较适合于文本自动分类。
一般认为,KNN算法的主要缺点有:一是计算量较大,因为对每一个待分类的文献,都要计算它到全体已知样本的距离,才能求得它的K个最近邻点。常用的解决方法一是事先对已经样本点进行剪辑,去除对分类作用不大的样本,另一种方法是用空间换时间,事先将所有样本点的两两距离计算出来并存入相应的位置以备检索。二是处理过程中,所有的临近K值对结果点的影响效果是一样的,不管这个点离它有多远。而在实际应用中,可以采取附加权值的方法,放大临近点对结果的影响。
业界对KNN算法的研究多专注于减少计算量的角度。参考文献[3]提出用概念树来管理类别特征从而减少运算量的思路,参考文献[4][5]提出通过对分类体系各类别均建立代表点来减少运算量的思路,参考文献[6][7]是通过多步骤分级计算来减少计算量提高系统有效性,参考文献[8]则提出利用每次k-NN查询中保存的近邻点到被查询点的距离汁算出近邻点孤立程度上界的提前修剪算法。这些思路和方法,都取得了一定的效果,提高了自动分类系统的有效性。各类文献中关于充分利用样本库的资源来进一步提高分类准确率的方面,讨论的不多。
1 等距离样本不公问题及解决
KNN算法严重依赖样本库。一方面来说,如果样本库分布不均匀,某些类型偏多某些类型偏少,则会对分类结果的正确性产生较大的影响,另一方便来说,如果不能充分利用样本库的资源,也可能使得分类结果产生一定的偏差。
KNN算法最重要的步骤就是要计算待分类文本与样本库中各文本的距离,并排序,然后取出前K个文本。文本的距离有多种计算方法,其中一个常用的有效方法是:提取文本的属性向量,然后计算代表文本的属性向量之间的距离,即用向量的距离代表文本的距离。在实际的开发测试过程中我们发现,在样本数量比较大的时候,两个向量之间的距离相同是比较常见的现象,这就导致了等距离文本也是比较常见的。
设T为待分类的文本,Si(i=1,2,3,…N,N为样本总数)为知识库中的样本,定义Dti为待分文本T到样本Si的距离,根据KNN算法,我们应该取Dti(i=1,2,3,…N)中最小的K(K≤N)个值,并按照这K个值对应的K个样本来进行分类决策。
设di为Dti(i=1,2,3,…N)按照从小到大进行排序以后所得的序列,其对应的样本为Si,即T到Si的距离为di,并有d1≤d2≤d3≤…≤dN。按照KNN算法,取di(i=1,2,3,…N)的前K个值即为距离待分文本T最近的K个样本Si(i=1,2,3,…K)到待分文本T的距离,只需要根据Si(i=1,2,3,…K)这K个样本进行分类决策即可。
然而,我们发现,如果dK=dK+1,那么我们采用Sk而不采用Sk+1进行分类决策就对样本Sk+1不公平,我们没有任何理由选取Sk却不选Sk+1作为分类决策样本,因为这两个样本到待分文本T的距离是完全相等的。但是由于我们只能选取K个样本,Sk与Sk+1必舍其一,这样得到的最后的分类结果可能不是最优。事实上,在我们实验中发现,dK-10,那么针对待分类文本T的决策样本就取S1到SK-m这K-m个样本作为决策样本,或者取S1到SK+n共计K+n个样本作为决策样本,这样取到的决策样本对于待分类文本T来说,用于分类决策的样本都是公平的。我们称此方案为基本修正方案。
您可能关注的文档
- 《吾儿唐吉》中主人公唐吉形象研究.doc
- 《向我来》中华美父亲形象重建.doc
- 《周易》在企业文化人本管理中当代意蕴.doc
- 《到灯塔去》中拉姆齐一家家庭关系研究.doc
- 《哈姆雷特》措词特征与意象效果.doc
- 《唯我主义者》中欲望主题.doc
- 《商品流通企业会计》课程内容和教学模式整合探究.doc
- 《固体废弃物处理和处置》校内现有资源实践教学探索Ⅱ.doc
- 《围城》讽刺艺术继承和创新.doc
- 《地球上水循环》教学实录.doc
- DB34T4950-2024禽白血病-通用_A_J三重PCR检测技术规程.docx
- DB34T4956-2024单采血浆集中化检测实验室建设规范.docx
- DB34T4912-2024二手新能源汽车鉴定评估规范.docx
- DB36T+2045-2024主要林木品种审定规范.docx
- DB15T+3702-2024马铃薯黄白薯肉颜色检测技术及分级标准.docx
- DB34T2367-2024霍山石斛种子生产技术规程.docx
- DB1408T053-2024市场主体商事登记四级 帮办服务标准.docx
- DB34T2166-2024紫蝶尾龙睛金鱼繁育技术规程.docx
- DB34T4923-2024社会救助志愿者管理规范.docx
- DB1405_T 062-2024企业养老保险关系转移接续服务规范.docx
文档评论(0)