第六章使用KNN算法实现分类与回归86课件讲解.pptxVIP

下载本文档

0
0
约2.45千字
约 15页
2025-12-22 发布于陕西
举报
版权申诉

第六章使用KNN算法实现分类与回归86课件讲解.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第六章汇报人：人工智能专业使用KNN算法实现分类与回归

KNN算法原理PARTONE

3k近邻算法（k-NearestNeighbor,kNN）由科弗和哈特提出，是机器学习中最简单也是应用最广泛的算法之一，它根据距离函数计算待测样本与所在特征空间中各个样本的距离，找到距离待测样本最近的k个样本，依此判定待测样本属于某类或用于回归计算。6.1k近邻算法的基本原理

4假设有两个不同类别的数据，分别用红色小三角形和蓝色小正方形表示，图中间那个绿色的圆点所标示的数据则是待分类的数据，现在这个新的圆点应该属于哪个分类呢？1．K最近邻算法原理K最近邻(K-NearestNeighbor，KNN)算法的核心思想就是距离的比较，即离谁近，就和谁属于同一分类。6.1.1k近邻算法的原理分析

5k近邻算法解决分类问题的原理是给定一个训练数据集，对新输入的样本，在训练数据集中找到与该样本距离最邻近的k个样本（也就是k个邻居），若这k个样本中多数属于某个类别，就把该输入样本划分为这个类别。要寻找与新输入样本最邻近的k个样本，需要计算两点之间的距离，此时，可使用欧式距离进行计算。假设两个点的坐标分别为和，则这两点之间的欧式距离公式为1．k近邻算法解决分类问题的原理6.1.1k近邻算法的原理分析

6假设K代表邻居的个数，从上图中，我们看到：如果K=3，圆点最邻近的3个邻居是2个小三角形和1个小正方形，少数从服从多数，基于统计的方法，判定圆点属于三角形一类。如果K=5，圆点最邻近的5个邻居是2个三角形和3个正方形，还是少数服从多数，基于统计的方法，判定圆点属于正方形一类。由此我们看到，在KNN算法中，所选择的邻居都是已经正确分类的对象，对于新来的待分样本，只要找到离它最近的K个实例，按照少数服从多数原则，哪个类别多就把它归为哪一类。1．k近邻算法解决分类问题的原理6.1.1k近邻算法的原理分析

7回归问题研究的是一组变量与另一组变量之间的关系，其预测结果是连续的数值。使用k近邻算法解决回归问题时，仍然需要计算待测样本与所在特征空间中每个样本的距离，基于计算结果，找到与待测样本最邻近的k个样本，通过对这k个样本的某个值（如平均值）进行统计，依据各个待测样本的统计值画出回归曲线，进而预测新样本的值。2．k近邻算法解决回归问题的原理6.1.1k近邻算法的原理分析

8在研究二手房房价与面积之间关系的实例中，使用k近邻算法建立模型，得到的回归曲线如图所示。k近邻算法解决回归问题使用k近邻算法建立回归模型的过程：先主观设置k的值，假设k的值为5，通过计算找到所在特征空间中与待测样本距离最近的5个样本，然后计算这5个样本的某个统计值（如平均值），将这个值作为待测样本的预测值，依据各个样本的预测值得到回归曲线。2．k近邻算法解决回归问题的原理6.1.1k近邻算法的原理分析

9k近邻算法通常用于光学字符识别（opticalcharacterrecognition,OCR）系统、电商平台用户分类、银行数据预测客户行为等领域。在实际应用中，k近邻算法可能会遇到以下几个需要解决的问题。6.1.2k近邻算法的常见问题及解决方法

10k近邻算法解决分类问题时，经常会遇到这样的问题：当样本分布不平衡时（即数据集中一个类的样本容量很大，而其他类的样本容量很小），很可能会出现对新样本的预测不准确的情况。因为样本分布不均匀，当输入一个新样本时，该样本的k个邻居中大数量类的样本占多数，很可能将新样本预测为大数量的样本类型，导致预测误差。如图所示，新样本应属于D1类，但是应用k近邻算法会将其错误地划分为D2类。样本不平衡时k近邻算法的预测效果对于这类问题，可以采用对近邻点赋权值的方法改进，即与该样本距离小的邻居权值大，与该样本距离大的邻居权值小。由此，将距离远近的因素也考虑在内，避免了因某个类别样本的容量过大而导致误判的情况。1．样本不平衡对算法的影响6.1.2k近邻算法的常见问题及解决方法

11在k近邻算法中，k值是主观设定的，但人为设定k值是不科学的，会影响模型的性能。一般情况下，k值与预测误差率的关系如图所示。即随着k值的增大，误差率先降低后增高。这很好理解，在一定范围内，k值越大，周围可以借鉴的样本就越多，预测误差率就会降低；但是当k值非常大时，几乎每个样本都变成了待测样本的邻居，预测误差率肯定就会增高。例如，训练集中共有30个样本，当k值增大到30时，k近邻算法基本上就没有意义了。要选出最优的k值，需要分别尝试不同k值下的预测效果。在Sklearn中，可使用交叉验证法或网格搜索法确定k的取值。k值与预测误差率的关系2．k的取值对算法的影响6.1.2k近邻