统计学k 近邻法概论.pdfVIP

  1. 1、本文档共20页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
统计学k 近邻法概论

目录 1. k 近邻算法 2. k 近邻模型 3. k 近邻法的实现: kd 树 一、k 近邻算法 原理 特点 一般流程 K-Nearest Neighbors算法原理 K=7 Neighborhood K=1 Neighborhood Dependent of the data distributions. Can make mistakes at boundaries. 4 K-Nearest Neighbors算法特点 优点 精度高 对异常值不敏感 无数据输入假定 缺点 计算复杂度高 空间复杂度高 适用数据范围 数值型和标称型 K-Nearest Neighbors Algorithm 工作原理 存在一个样本数据集合,也称作训练样本集,并且样本 集中每个数据都存在标签,即我们知道样本集中每个数 据与所属分类的对应关系。 输入没有标签的新数据后,将新数据的每个特征与样本 集中数据对应的特征进行比较,然后算法提取样本集中 特征最相似数据 (最近邻)的分类标签。 一般来说,只选择样本数据集中前N个最相似的数据。K 一般不大于20 ,最后,选择k个中出现次数最多的分类, 作为新数据的分类 K近邻算法的一般流程 收集数据:可以使用任何方法 准备数据:距离计算所需要的数值,最后是结构化的数 据格式。 分析数据:可以使用任何方法 训练算法: (此步骤kNN )中不适用 测试算法:计算错误率 使用算法:首先需要输入样本数据和结构化的输出结果, 然后运行k-近邻算法判定输入数据分别属于哪个分类, 最后应用对计算出的分类执行后续的处理。 二、k 近邻模型 模型 距离度量 k 值的选择 分类决策规则 模型 距离度量 Lp距离: 欧式距离: 曼哈顿距离 L∞距离 距离度量 K值的选择 如果选择较小的K值  “学 习”的近似误差 (approximation error)会减小,但 “学习”的估计误差 (estimation error) 会增大, 噪声敏感 K值的减小就意味着整体模型变得复杂,容易发生过 拟 合. 如果选择较大的K值, 减少学习的估计误差,但缺点是学习的近似误差会增大. K值的增大 就意味着整体的模型变得简单. 分类决策规则 多数表决规则 (经验风险最小化) 分类函数 误分类率 三、k 近邻法的实现 :kd 树 构造 kd 树 搜索 kd 树 KD树 kd树是一种对K维空间中的实例点进行存储以便对其进 行快速检索的树形数据结构. Kd树是二叉树,表示对K维空间的一个划分 (partition).构造Kd树相 当于不断地用垂直于坐标轴的 超平面将k维空间切分,构成一系列的k维超矩形区 域.Kd树的每个结点对应于一个k维超矩形区域. KD树 构造kd树: l 对深度为j 的节点,选择x 为切分的坐标轴 例: KD树 {(2,3),(5,4),(9,6),(4,7),(8,1),(7,2)}, 建立索引 KD树搜索 Q & A

文档评论(0)

小茗同学 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档