- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
课前视频学习任务?5.1问题描述与解题思路.mp4?5.2全局变量与代码整体框架.mp4?5.3数据读入与簇群初始化.mp4?5.4Kmeans核心算法实现.mp4课前实践任务掌握KMeans算法求解鸢尾花分类问题(无监督学习)调研一种有监督学习方法求解鸢尾花分类预测问题
课堂测试(5分钟)
课堂讨论(35分钟)
课堂讨论1、K-Means聚类算法原理。
问题分析鸢尾花的4个参数:花萼长度花萼宽度花瓣长度花瓣宽度注:这个项目中,鸢尾花的种类这一维度的参数没有使用。设计一种鸢尾花快速分类方法样本训练分类算法挖掘内在规律聚类算法(K-Means)山鸢尾花irisSetosa变色鸢尾花irisVersicolor维吉尼亚鸢尾花irisVirginica
Kmeans算法(K均值算法)—图解步骤
Kmeans算法—核心思想(1)从样本集中随机选取K个样本作为簇中心,也就是选取K个质心;(2)计算所有样本与这K个质心的距离;(3)依据距离最近原则,将每一个样本划分到与其距离最近的质心所在的簇群中;(4)对于新簇群计算各个簇群的新“簇中心”,也就是新的质心。(5)如果新质心和老质心相同,也就是质心没有发生变化,那么聚类结束;否则就需要回到第(2)步,重新计算点到质心的聚类,确定每个点所属的簇群,再根据新簇群计算新质心。
Kmeans算法—计算样本点到质心的距离???
Kmeans算法—重新计算质心如果新划分的簇群中有m个向量:?新划分簇群的质心向量的每一个维度计算公式为:??如果计算出的新质心与原质心不同,则表示需要按新质心重新划分簇群;如果质心不再发生变化,簇群划分完毕,算法结束。
算法步骤迭代终止条件:所有质心不再发生变化;迭代次数达到上限。
Kmeans代码分析3
课堂讨论问题2:如何评估K-Means聚类算法的效果(K-Means聚类算法评估指标)。标准:高内聚、低耦合?对于每个点i(已聚类数据中的样本)1、bi为i点到其他簇群所有样本点距离的最小值2、ai为i点到本簇群所有样本点距离的平均值3、最后计算出所有样本点轮廓系数的平均值-1=SCi=1SCi越接近1越好
课堂讨论问题3:什么是有监督学习,什么是无监督学习,分析两种学习方法的适用场景。无监督学习:输入数据没有被标记,也没有确定的结果。样本数据类别未知,需要根据样本间的相似性对样本集进行分类(聚类,clustering)试图使类内差距最小化,类间差距最大化。通俗点将就是实际应用中,不少情况下无法预先知道样本的标签,也就是说没有训练样本对应的类别,因而只能从原先没有样本标签的样本集开始学习分类器设计。无监督学习目标不是告诉计算机怎么做,而是让它(计算机)自己去学习怎样做事情。例如:聚类、主成分分析方法PCA
课堂讨论有监督学习:从给定的训练数据集中学习出一个函数(模型参数),当新的数据到来时,可以根据这个函数预测结果。监督学习的训练集要求包括输入输出,也可以说是特征和目标。训练集中的目标是由人标注的。监督学习就是最常见的分类(注意和聚类区分)问题,通过已有的训练样本(即已知数据及其对应的输出)去训练得到一个最优模型(这个模型属于某个函数的集合,最优表示某个评价准则下是最佳的),再利用这个模型将所有的输入映射为相应的输出,对输出进行简单的判断从而实现分类的目的。也就具有了对未知数据分类的能力。监督学习的目标往往是让计算机去学习我们已经创建好的分类系统(模型)。例如:KNN(K近邻)、朴素贝叶斯分类、支持向量机
课堂讨论问题3:?阐述一种有监督学习算法原理;参考:本题自由回答,根据调研阐述不同算法的原理。
参考方法——K最邻近分类算法(KNN)K最邻近(KNN,K-NearestNeighbor)分类算法思路在分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别,算法流程如下:(1)数据预处理,例如数据集打乱、种类维度的数据变换。(2)将数据集分训练集和测试集。(3)计算测试样本点即待分类点到训练接中每个样本点的距离。说明:使用前4个维度采用欧式距离计算两个样本点的距离。(4)对每个距离进行排序,选择出与测试样本点距离最小的K(超参,预先设定)个点。(5)排序后对距离最小的K个点所属的类别进行统计,根据少数服从多数的原则,将测试样本点归入在K个点中类比占比最高的那一类。(6)最后计算测试样本被分类的准确度。使用以下公式计算分类的准确度:准确率=(预测准确的个数/总测试样本数)。
参考方法——K最邻近分类算法(KNN)花萼长度(单位:cm)花萼宽度(单位:cm)花瓣长度(单位:cm)花瓣宽度(单位:cm)类别5.13.51.40.2Iris-setosa4.93.01.4
您可能关注的文档
- 《IT技术基础(第二版)》_3 计算机存储与显示部件.pptx
- 《程序设计综合实践》_第2章 递归程序设计-第4次课.pptx
- 《程序设计综合实践》_第1章 线性结构-第2次课.pptx
- 《程序设计综合实践》_第4章 简单房价预测问题-第6次课.pptx
- 《UG NX12》.0机电产品三维数字化设计实例教程_草图设计.ppt
- 《IT技术基础(第二版)》_6.5 制作USB启动盘.pptx
- 《IT技术基础(第二版)》_8.3 家庭网络基础.pptx
- 《Mysql数据库技术Mysql数据库技术应用》_项目8 数据库编程.pptx
- 《IT技术基础(第二版)》_7.2 计算机软件故障排除.pptx
- 《程序设计综合实践》_第7章 贪吃蛇游戏-第9次课.pptx
- 《2025年公共卫生应急报告:AI疫情预测与资源调配模型》.docx
- 《再生金属行业2025年政策环境循环经济发展策略研究》.docx
- 2025年开源生态AI大模型技术创新与产业协同趋势.docx
- 《2025年智能汽车人机交互创新研究》.docx
- 2025年专利申请增长趋势下的知识产权保护机制创新分析报告.docx
- 《2025年数字藏品元宇宙技术发展趋势分析报告》.docx
- 2025年折叠屏技术迭代中AI功能集成市场反应量化分析报告.docx
- 《2025年教育培训视频化教学与会员学习服务》.docx
- 《2025年工业软件行业CAD国产化应用场景分析报告》.docx
- 《2025年生物制药行业趋势:单抗技术迭代与产业链自主可控规划》.docx
原创力文档


文档评论(0)