第二章-K近邻算法.pptVIP

下载本文档

414
0
约6.15千字
约 42页
2019-05-26 发布于浙江
举报
版权申诉

第二章-K近邻算法.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Company Logo K近邻算法应用实践数据预处理为了提高判别效果，我们考虑采用分层抽样的方式，由于miete数据集中，待判别变量nmkat的5个等级分布比较均匀，因此采用5个等级按等量抽取样本。 install.packages(“sampling”)下载包 library(sampling)加载包 n = round(2/3*nrow(miete)/5)按照训练集占总数2/3，每一等级中应抽取的样本量 n显示训练集中每一等级中应抽取的样本量 sub_train = strata(miete,stratanames = nmkat,size=rep(n,5),method=srswor)显示训练集抽取的情况，包括nmkat变量取值、该样本在数据集中的序号、被抽取的概率、以及被抽取的层次 Company Logo K近邻算法应用实践数据预处理 data_train = getdata(miete[,c(-1,-3,-12)],sub_train$ID_unit)获取如上ID_unit所对应的样本构成训练集，并删除变量1、3、12 data_test = getdata(miete[,c(-1,-3,-12)],-sub_train$ID_unit)获取如上ID_unit所对应的样本构成测试集，并删除变量1、3、12 dim(data_train); dim(data_test) 分别显示训练集、测试集的维度 K近邻算法k-nearest neighbor Company Logo 主要内容 K近邻算法 K近邻模型距离度量 k值选择分类决策规则 K近邻算法的实现 KD树简介 KD树的构建用KD树的k近邻搜索基于距离加权的K近邻算法 K近邻算法应用实践 KNN与推荐 Company Logo KNN算法 K近邻算法，即K-Nearest Neighbor algorithm，简称KNN算法，是一个理论上比较成熟的方法，也是最简单的机器学习算法之一，1968年由 Cover 和 Hart 提出。 Company Logo KNN算法 Company Logo KNN算法特点基于实例之间距离和投票表决的分类精度高、对异常值不太敏感计算复杂度高、空间复杂度高特别适合多分类简单易实现大多数情况下比朴素贝叶斯和中心向量法好给定训练集、距离度量、k值及分类决策函数时，其结果唯一确定 Company Logo KNN算法算法描述：输入：训练数据集为实例的特征向量，实例向量x 输出：实例x所属的类别y 根据给定的距离度量，在训练集T中找出与x最近的k个点，涵盖着k个点的x的邻域记作Nk(x) 在Nk(x)中根据分类决策规则（如多数表决）决定x所属的类别y。上式中，I为指示函数，即当yi=cj时，I为1，否则为0 Company Logo KNN模型 K近邻算法中，当训练集、距离度量、k值及分类决策规则确定后，对于任何一个输入实例，它所属的的类唯一地确定特征空间中，对于每个训练实例点，距离该点比其他点更近的所有点组成了一个区域，叫单元(cell)。每个训练实例点拥有一个单元，所有训练实例点的单元构成对特征空间的一个划分。 Company Logo 距离度量设特征空间是n维实数向量Rn，xi，xj∈Rn， xi，xj的一般距离定义为闵式距离LP：当p=2时，为欧几里得距离当p=1时，为曼哈顿距离当p=+∞时，为切比雪夫距离注意：使用的距离不同，k近邻的结果也会不同的，即“由不同的距离度量所确定的最邻近点是不同的” Company Logo k值选择 k值得选择非常重要，对算法结果产生重要影响如果选择的比较小的话，相当于用较小邻域中的训练实例进行预测，学习的近似误差会减少，只有与输入实例较近的训练实例才会对预测结果起作用，缺点是学习的估计误差会增大，易受噪声影响，极端情况是k=1 如果k值选取的比较大，相当于用较大邻域中的训练实例进行预测，学习的估计误差会减少，但是近似误差会增大，而且与输入实例较远的训练实例也会对预测起作用，是预测结果错误，k值的增大意味着整体模型变得简单。因为划分的区域少了，更容易进行预测结果。极端情况是k=N 在应用中k一般取一个比较小的值，通常采用交叉验证法来选取最优的k值 Company Logo 分类决策规则 k近邻法的分类决策规则往往是多数表决，即由输入实例的k个近邻训练实例多数所属的类来决定