- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
袁春 清华大学深圳研究生院
李航 华为诺亚方舟实验室
目录
1. k 近邻算法
2. k 近邻模型
3. k 近邻法的实现: kd 树
一、k 近邻算法
原理
特点
一般流程
K-Nearest Neighbors算法原理
K=7 Neighborhood
K=1 Neighborhood
Dependent of the data distributions.
Can make mistakes at boundaries.
4
K-Nearest Neighbors算法特点
优点
精度高
对异常值不敏感
无数据输入假定
缺点
计算复杂度高
空间复杂度高
适用数据范围
数值型和标称型
K-Nearest Neighbors Algorithm
工作原理
存在一个样本数据集合,也称作训练样本集,并且样本
集中每个数据都存在标签,即我们知道样本集中每个数
据与所属分类的对应关系。
输入没有标签的新数据后,将新数据的每个特征与样本
集中数据对应的特征进行比较,然后算法提取样本集中
特征最相似数据 (最近邻)的分类标签。
一般来说,只选择样本数据集中前N个最相似的数据。K
一般不大于20 ,最后,选择k个中出现次数最多的分类,
作为新数据的分类
K近邻算法的一般流程
收集数据:可以使用任何方法
准备数据:距离计算所需要的数值,最后是结构化的数
据格式。
分析数据:可以使用任何方法
训练算法: (此步骤kNN )中不适用
测试算法:计算错误率
使用算法:首先需要输入样本数据和结构化的输出结果,
然后运行k-近邻算法判定输入数据分别属于哪个分类,
最后应用对计算出的分类执行后续的处理。
二、k 近邻模型
模型
距离度量
k 值的选择
分类决策规则
模型
距离度量
Lp距离:
欧式距离:
曼哈顿距离
L∞距离
距离度量
K值的选择
如果选择较小的K值
“学 习”的近似误差 (approximation error)会减小,但
“学习”的估计误差 (estimation error) 会增大,
噪声敏感
K值的减小就意味着整体模型变得复杂,容易发生过 拟
合.
如果选择较大的K值,
减少学习的估计误差,但缺点是学习的近似误差会增大.
K值的增大 就意味着整体的模型变得简单.
分类决策规则
多数表决规则 (经验风险最小化)
分类函数
误分类率
三、k 近邻法的实现 :kd 树
构造 kd 树
搜索 kd 树
KD树
kd树是一种对K维空间中的实例点进行存储以便对其进
行快速检索的树形数据结构.
Kd树是二叉树,表示对K维空间的一个划分
(partition).构造Kd树相 当于不断地用垂直于坐标轴的
超平面将k维空间切分,构成一系列的k维超矩形区
域.Kd树的每个结点对应于一个k维超矩形区域.
KD树
构造kd树:
l
对深度为j 的节点,选择x 为切分的坐标轴
例:
KD树
{(2,3),(5,4),(9,6),(4,7),(8,1),(7,2)},
建立索引
KD树搜索
Q A
您可能关注的文档
最近下载
- 津津有味·读经典Level3《弗兰肯斯坦》译文.docx
- Zippo2008原版年册完整集合DE系列.pdf VIP
- 2025年体育产业数字化转型与体育赛事数据安全与隐私保护报告.docx
- 纪委监委考试题及答案.doc VIP
- 基于“劳动育人”理念的家校共育小学生劳动素养的实践研究.docx VIP
- 2025年价格鉴证师考试题库(附答案和详细解析)(1010).docx VIP
- 相声艺术讲座——基本结构.pdf VIP
- 雨课堂学堂在线《生心理健康教育(广州中医药)》学堂云单元测试考核答案.pdf
- 黄金分割(北师大版)市公开课一等奖省赛课获奖PPT课件.pptx VIP
- 运输服务优化方案.pdf VIP
原创力文档


文档评论(0)