- 79
- 0
- 约 6页
- 2015-09-13 发布于江苏
- 举报
KNN分类算法.ppt
k 近邻算法(knn, k nearest neighbor) 算法基本介绍 k近邻的非正式描述,就是给定一个样本集exset,样本数为M,每个样本点是N维向量,对于给定目标点d,d也为N维向量,要从exset中找出与d距离最近的k个点(k=N),当k=1时,knn问题就变成了最近邻问题。最原始的方法就是求出exset中所有样本与d的距离,进行按出小到大排序,取前k个即为所求,但这样的复杂度为O(N),当样本数大时,效率非常低下. 算法描述 该算法的基本思路是:在给定新文本后,考虑在训练文本集中与该新文本距离最近(最相似)的 K 篇文本,根据这 K 篇文本所属的类别判定新文本所属的类别 右图中,绿色圆要被决定赋予哪个类, 是红色三角形还是蓝色四方形?如果 K=3,由于红色三角形所占比例为2/3, 绿色圆将被赋予红色三角形那个类, 如果K=5,由于蓝色四方形比例为3/5, 因此绿色圆被赋予蓝色四方形类。 算法描述 算法分为以下几步: 一、:根据特征项集合重新描述训练文本向量 二、:在新文本到达后,根据特征词分词新文本,确定新文本的向量表示 三、:在训练文本集中选出与新文本最相似的 K 个文本,计算公式为: 算法描述 其中,K 值的确定目前没有很好的方法,一般采用先定一个初始值,然后根据实验测试的结果调整 K 值,一般初始值定为几百到几千之间。(这里K采取随机取值) 四、:在新文
您可能关注的文档
- 2014-2020年中国帐篷市场前景研究与投资潜力研究报告.doc
- 2014-2020年中国廉价航空市场深度调查与未来前景预测报告.doc
- 2014届高三名校语文试题分省分项汇编专题09 扩展、压缩语段和选用、仿用、变换句式(解析版)Word版含解析.doc
- 2014年中国二硫化碳行业前景评估报告.doc
- 2014年夏季普通高中学业考试试题卷.doc
- 2014年河南省普通高中招生考试命题要求及方案.doc
- 2014河北省职称计算机考试详解.doc
- 2015-2020年中国二硫化碳市场分析预测及发展趋势研究报告.doc
- 2015-2020年中国帐篷市场前景研究与投资战略研究报告.doc
- 2015-2020年中国帐篷市场行情动态及投资前景评估报告.doc
最近下载
- 乙烯基甲苯(混合异构体)-国际化学品安全卡.pdf VIP
- DB31_T 1660-2025 数据中心基础设施建设指南.pdf VIP
- DB1301T 428-2022 富硒黄冠梨绿色生产技术规程.docx VIP
- 2025年固态电池产业链研究报告-深企投.pdf
- 大跨度连续梁刚构桥常见病害分析及处治对策.pptx VIP
- (高清版)DB5110∕T 32-2021 内江黑猪商品猪生产技术规程. .pdf VIP
- DB15∕T 4281-2026 湖泊环境微塑料监测技术指南.pdf VIP
- DB1302T 533-2021 农业社会化服务 病虫害防控服务规范.docx VIP
- 2016年中小学幼儿园教师职称考试物理试题.pdf VIP
- DB21_T 4173-2025 城市地下综合管廊工程技术规程.docx VIP
原创力文档

文档评论(0)