- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
第六章汇报人:人工智能专业使用KNN算法实现分类与回归
KNN算法原理PARTONE
3k近邻算法(k-NearestNeighbor,kNN)由科弗和哈特提出,是机器学习中最简单也是应用最广泛的算法之一,它根据距离函数计算待测样本与所在特征空间中各个样本的距离,找到距离待测样本最近的k个样本,依此判定待测样本属于某类或用于回归计算。6.1k近邻算法的基本原理
4假设有两个不同类别的数据,分别用红色小三角形和蓝色小正方形表示,图中间那个绿色的圆点所标示的数据则是待分类的数据,现在这个新的圆点应该属于哪个分类呢?1.K最近邻算法原理K最近邻(K-NearestNeighbor,KNN)算法的核心思想就是距离的比较,即离谁近,就和谁属于同一分类。6.1.1k近邻算法的原理分析
5k近邻算法解决分类问题的原理是给定一个训练数据集,对新输入的样本,在训练数据集中找到与该样本距离最邻近的k个样本(也就是k个邻居),若这k个样本中多数属于某个类别,就把该输入样本划分为这个类别。要寻找与新输入样本最邻近的k个样本,需要计算两点之间的距离,此时,可使用欧式距离进行计算。假设两个点的坐标分别为和,则这两点之间的欧式距离公式为1.k近邻算法解决分类问题的原理6.1.1k近邻算法的原理分析
6假设K代表邻居的个数,从上图中,我们看到:如果K=3,圆点最邻近的3个邻居是2个小三角形和1个小正方形,少数从服从多数,基于统计的方法,判定圆点属于三角形一类。如果K=5,圆点最邻近的5个邻居是2个三角形和3个正方形,还是少数服从多数,基于统计的方法,判定圆点属于正方形一类。由此我们看到,在KNN算法中,所选择的邻居都是已经正确分类的对象,对于新来的待分样本,只要找到离它最近的K个实例,按照少数服从多数原则,哪个类别多就把它归为哪一类。1.k近邻算法解决分类问题的原理6.1.1k近邻算法的原理分析
7回归问题研究的是一组变量与另一组变量之间的关系,其预测结果是连续的数值。使用k近邻算法解决回归问题时,仍然需要计算待测样本与所在特征空间中每个样本的距离,基于计算结果,找到与待测样本最邻近的k个样本,通过对这k个样本的某个值(如平均值)进行统计,依据各个待测样本的统计值画出回归曲线,进而预测新样本的值。2.k近邻算法解决回归问题的原理6.1.1k近邻算法的原理分析
8在研究二手房房价与面积之间关系的实例中,使用k近邻算法建立模型,得到的回归曲线如图所示。k近邻算法解决回归问题使用k近邻算法建立回归模型的过程:先主观设置k的值,假设k的值为5,通过计算找到所在特征空间中与待测样本距离最近的5个样本,然后计算这5个样本的某个统计值(如平均值),将这个值作为待测样本的预测值,依据各个样本的预测值得到回归曲线。2.k近邻算法解决回归问题的原理6.1.1k近邻算法的原理分析
9k近邻算法通常用于光学字符识别(opticalcharacterrecognition,OCR)系统、电商平台用户分类、银行数据预测客户行为等领域。在实际应用中,k近邻算法可能会遇到以下几个需要解决的问题。6.1.2k近邻算法的常见问题及解决方法
10k近邻算法解决分类问题时,经常会遇到这样的问题:当样本分布不平衡时(即数据集中一个类的样本容量很大,而其他类的样本容量很小),很可能会出现对新样本的预测不准确的情况。因为样本分布不均匀,当输入一个新样本时,该样本的k个邻居中大数量类的样本占多数,很可能将新样本预测为大数量的样本类型,导致预测误差。如图所示,新样本应属于D1类,但是应用k近邻算法会将其错误地划分为D2类。样本不平衡时k近邻算法的预测效果对于这类问题,可以采用对近邻点赋权值的方法改进,即与该样本距离小的邻居权值大,与该样本距离大的邻居权值小。由此,将距离远近的因素也考虑在内,避免了因某个类别样本的容量过大而导致误判的情况。1.样本不平衡对算法的影响6.1.2k近邻算法的常见问题及解决方法
11在k近邻算法中,k值是主观设定的,但人为设定k值是不科学的,会影响模型的性能。一般情况下,k值与预测误差率的关系如图所示。即随着k值的增大,误差率先降低后增高。这很好理解,在一定范围内,k值越大,周围可以借鉴的样本就越多,预测误差率就会降低;但是当k值非常大时,几乎每个样本都变成了待测样本的邻居,预测误差率肯定就会增高。例如,训练集中共有30个样本,当k值增大到30时,k近邻算法基本上就没有意义了。要选出最优的k值,需要分别尝试不同k值下的预测效果。在Sklearn中,可使用交叉验证法或网格搜索法确定k的取值。k值与预测误差率的关系2.k的取值对算法的影响6.1.2k近邻
您可能关注的文档
- 第六章第四节带传动的应力分析49课件讲解.pptx
- 第六章第五节带传动的运动分析70课件讲解.pptx
- 第六章典型药物生产工艺四布洛芬的生产工艺71课件讲解.pptx
- 第六章矫治器及其制作技术06课件讲解.pptx
- 第六章制浆造纸工业节水技术17课件讲解.pptx
- 第七章01课件讲解.pptx
- 第七章26课件讲解.pptx
- 第七章86课件讲解.pptx
- 第七章齿轮传动第四节直齿圆柱齿轮正确啮合和连续传动的条件86课件讲解.pptx
- SpyCloud:2025年度身份暴露报告 英文版.pdf
- 2024反思-洞察-预见:人工智能在金融犯罪合规中的应用常见问题解答指南 英文版.pdf
- 粤20J 010-2 装配式混凝土结构保障性住房、人才房装修施工图案例.pdf
- LLMAll_zh-CN信息安全资料.pdf
- 2025区块链游戏与AI的融合如何重塑加密生态系统研究报告 英文版.pdf
- 冯绪-TRAE 在 Agent 代码编辑的实践.pdf
- SpyCloud:2024年恶意软件与勒索软件防御报告 英文版.pdf
- T_HNKCSJ 024-2025 刚节点装配式混凝土框架结构施工图制图规则及构造详图(25HNTJ025).docx
- 链上洗钱与反洗钱.pdf
- 2025中国PaaS市场研究报告.pdf
- 《数据分类分级实践指南2.0》.pdf
原创力文档


文档评论(0)