袁春清华大学深圳研究生院李航华为诺亚方舟试验室.PDF

下载文档 降价啦

35
0
约1.92千字
约 20页
2019-05-02 发布于天津
举报
版权申诉
保障服务

袁春清华大学深圳研究生院李航华为诺亚方舟试验室.PDF

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

袁春清华大学深圳研究生院李航华为诺亚方舟实验室目录 1. k 近邻算法 2. k 近邻模型 3. k 近邻法的实现： kd 树一、k 近邻算法 原理 特点 一般流程 K-Nearest Neighbors算法原理 K=7 Neighborhood K=1 Neighborhood Dependent of the data distributions. Can make mistakes at boundaries. 4 K-Nearest Neighbors算法特点 优点 精度高 对异常值不敏感 无数据输入假定 缺点 计算复杂度高 空间复杂度高 适用数据范围 数值型和标称型 K-Nearest Neighbors Algorithm 工作原理 存在一个样本数据集合，也称作训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每个数据与所属分类的对应关系。 输入没有标签的新数据后，将新数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本集中特征最相似数据（最近邻）的分类标签。 一般来说，只选择样本数据集中前N个最相似的数据。K 一般不大于20 ，最后，选择k个中出现次数最多的分类，作为新数据的分类 K近邻算法的一般流程 收集数据：可以使用任何方法 准备数据：距离计算所需要的数值，最后是结构化的数据格式。 分析数据：可以使用任何方法 训练算法：（此步骤kNN ）中不适用 测试算法：计算错误率 使用算法：首先需要输入样本数据和结构化的输出结果，然后运行k-近邻算法判定输入数据分别属于哪个分类，最后应用对计算出的分类执行后续的处理。二、k 近邻模型 模型 距离度量 k 值的选择 分类决策规则模型距离度量 Lp距离： 欧式距离： 曼哈顿距离 L∞距离距离度量 K值的选择 如果选择较小的K值  “学习”的近似误差（approximation error)会减小，但 “学习”的估计误差（estimation error) 会增大， 噪声敏感 K值的减小就意味着整体模型变得复杂，容易发生过拟合. 如果选择较大的K值， 减少学习的估计误差，但缺点是学习的近似误差会增大. K值的增大就意味着整体的模型变得简单. 分类决策规则 多数表决规则（经验风险最小化）分类函数误分类率三、k 近邻法的实现：kd 树 构造 kd 树 搜索 kd 树 KD树 kd树是一种对K维空间中的实例点进行存储以便对其进行快速检索的树形数据结构. Kd树是二叉树，表示对K维空间的一个划分（partition).构造Kd树相当于不断地用垂直于坐标轴的超平面将k维空间切分，构成一系列的k维超矩形区域.Kd树的每个结点对应于一个k维超矩形区域. KD树 构造kd树： l 对深度为j 的节点，选择x 为切分的坐标轴 例： KD树 {(2,3),(5,4),(9,6),(4,7),(8,1),(7,2)}， 建立索引 KD树搜索 Q A