- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
两种相似度计算方法对KNN分类效果的影响研究莉1李湘东2黄( 1. 武汉大学图书馆 武汉 430072; 2. 武汉大学信息管理学院 武汉 430072)摘 要 KNN 最邻近算法是文本自动分类中最基本且常用的算法,
两种相似度计算方法对
KNN
分类效果的影响研究
莉1
李湘东2
黄
( 1. 武汉大学图书馆 武汉 430072; 2. 武汉大学信息管理学院 武汉 430072)
摘 要 KNN 最邻近算法是文本自动分类中最基本且常用的算法,该算法中需要计算文本之间的相似度。以 Jens-
en - Shannon 散度为例,在推导和说明其基本原理的基础之上,将其用于计算文本之间的相似度; 作为对比,也使用 常规的余弦值方法计算文本之间的相似度,并进而使用 KNN 最邻近算法对文本进行分类,以探讨不同的相似度计 算方法对使用 KNN 最邻近算法进行文本自动分类效果的影响。多种试验材料的实证研究说明,较之于余弦值方 法,基于 Jensen - Shannon 散度计算文本相似度的自动分类会使分类正确率更高,但会花费更长的时间。
关键词 文本自动分类 分类效果 最邻近算法 相似度 余弦值 Jensen - Shannon 散度
中图分类号
文献标识码
文章编号
1002 - 1965( 2012) 07 - 0177 - 05
TP391. 1
A
Two Similarity Measures and Their Effect on the KNN Algorithm
HUANG Li1 LI Xiangdong 2
( 1. Library ,Wuhan University ,Wuhan 430072;
2. School of Information M anagement,Wuhan University ,Wuhan 430072)
Abstract This research uses Jensen - Shannon Divergence instead of cosine value as similarity measure in the KNN classifier for text cate-
gorization. The performances under the tw o similarity measures are compared in terms of classification accuracy w ith several kinds of cor- pus. The experiment show s that the KNN algorithm based on Jensen - Shannon Divergence outperforms that based on cosine value.
Key words text categorization performance KNN similarity
cosine Jensen - Shannon Divergence
散度有助于提高 KNN 最邻近算法的分类精度。
0 引 言
1 KNN 最邻近算法的研究现状
文本自动分类是机器学习的应用,它是通过将待
分类文本与已分类的训练文本集进行比较,进而确定 待分类文本的所属类别的方法。KNN 最邻近算法因 为在原理上较为简单明白,在系统上较容易实现而成 为广泛运用和研究的一种自动文本分类算法。KNN 最邻近算法的主要特点之一是需要计算待分类文本与 训练文本集中每一个文本的相似度。因此,相似度的 计算是 KNN 最邻近算法的关键点之一、对分类效果 有着直接影响,如何选择相似度计算方法在 KNN 最 邻近算法中至为重要。
本文将 Jensen - Shannon 散度应用于 KNN 最邻近 算法之中的相似度计算,并将其与常用的余弦值方法进 行分类效果对比。通过实验证实使用 Jensen - Shannon
KNN 最邻近算法和支持向量机 SVM 法一样,相
较于其他的决策树、贝叶斯等分类方法有更好的分类 精度,尤其是对样本数较少的数据集[1]。KNN 最邻近 算法的研究内容主要集中在如何提高分类精度,具体 研究主要从以下三个角度开展: 针对特定的学科领域 或类型 的 文 本 分 类 对 象,确 定 分 类 精 度 最 佳 的 K 值[2 - 4]; 改变特征选取的方法,使选取的特征更有利于
提高分类精度[5]; 与其他分类算法混合使用[6 - 7] 等。
上述研究以及其他各项 KNN 最邻近算法的有关研
究[1,8 - 9]均使用余弦值方法计算文本之间的相似度。
在向量空间模型下,当文
您可能关注的文档
最近下载
- JGJT204-2010 建筑工程企业管理基础数据标准.docx VIP
- 10kV开关柜安装施工方案.pdf VIP
- (一模)湛江市2025年普通高考测试(一)化学试卷(含答案).pdf
- 计算机操作系统(慕课版)汤小丹课后习题答案解析.docx VIP
- 《园林模型制作》课件.ppt VIP
- 【课件】危险与可操作性分析(hazop分析)应用导则解读.pdf VIP
- 锅炉使用单位锅炉安全日管控、周排查、月调度制度包含记录.doc
- 2026中国工商银行国际结算单证中心秋季校园招聘笔试参考题库附答案解析.docx VIP
- AQT-3049-2013 危险与可操作性分析(HAZOP分析)应用导则.docx VIP
- 教育学原理-第六章-学校教育制度-适用于项贤明主编《教育学原理》(马工程).pptx VIP
文档评论(0)