Python人工智能技术与应用 PPT课件 7.【课件】3-1 完成基于K-Means的汽车产品聚类分析实训.pptx

下载文档

0
0
约5.42千字
约 32页
2024-07-18 发布于山东
举报
版权申诉
保障服务

Python人工智能技术与应用 PPT课件 7.【课件】3-1 完成基于K-Means的汽车产品聚类分析实训.pptx

1、本文档共32页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

《Python人工智能技术与应用》能力模块三掌握机器学习技术的基础应用任务一完成基于K-means的汽车产品聚类分析实训

TaskImport任务导入某无人汽车制造商打算开发一款新系列的汽车产品，在汽车产品开发之前需要了解消费者需求、市场趋势以及竞争对手情况等信息，从而更好地制定产品策略和市场推广方案。你作为该制造厂市场部门的市场数据分析师，主要职责是分析市场数据、趋势和消费者行为，以协助企业做出战略决策。现需要你利用Python编程语言和统计学知识对市场上的各类型汽车的竞品进行分析，帮助汽车制造商了解市场格局以及消费者需求，从而为产品设计和开发提供指导。

素养目标引导问题的过程中，培养学生形成勤于思考的能力获得分析解决问题以及多元化思考解决问题的方法，形成创新意识。TaskObject任务目标知识目标了解聚类算法的定义与实现过程。了解K-means算法的定义和实现过程。了解K-means算法的适用情形与应用场景。技能目标掌握使用机器学习工具sklearn库搭建K-means模型。能够思考并确立好基于K-means实现对汽车产品数据分析的思路。培养勤于思考的职业习惯。

新授

基于K-means实现汽车产品聚类分析项目04CONTENTS目录聚类分析算法定义与实现过程01K-means算法实现过程02K-means适用情形与应用场景03

01聚类分析算法定义与实现过程聚类分析定义聚类分析过程聚类分析是一种无监督学习方法，通过度量数据点之间的距离来捕捉它们之间的相似性，并将它们分成相似的类别。聚类分析的过程包括选择合适的距离度量方法、选择聚类算法、初始化聚类中心、计算相似性、将数据点分配到聚类中心、更新聚类中心、重复以上步骤、评估聚类效果等步骤。通过度量数据点之间的距离来捕捉数据点之间的相似性，将数据点进行分组

01聚类分析算法定义与实现过程指的是两个点在空间中的最短直线距离。欧式空间距离欧式空间中两个点的最短直线距离dist(A,B)（一）选择合适的距离度量方法

01聚类分析算法定义与实现过程又称“城市街区距离”(CityBlockdistance)或“出租车距离”。指从一个十字路口开车到另一个十字路口的驾驶距离。曼哈顿距离a+b为这两辆车的曼哈顿距离（一）选择合适的距离度量方法

01聚类分析算法定义与实现过程对于k-means聚类，需要随机初始化k个聚类中心。（三）初始化聚类中心根据相似性，将每个数据点分配到与之距离最近的聚类中心。（五）将数据点分配到聚类中心聚类算法可以是层次聚类、k-means聚类、DBSCAN聚类等。每种算法都有其适用的场景和特点，需要根据问题需求选择合适的算法。（二）选择聚类算法对于每个数据点，计算其与其他数据点的相似性，即距离。可以根据选择的距离度量方法来计算距离。（四）计算相似性

01聚类分析算法定义与实现过程重复以上步骤，直到聚类中心不再发生变化或达到预定的迭代次数。（七）重复以上步骤重新计算每个聚类的中心，即聚类中所有数据点的平均值。（六）更新聚类中心

01聚类分析算法定义与实现过程组内距离小：聚类后的每一个类别中成员与成员之间的相似度高组间距离大：聚类后不同类别的成员之间的相似度低聚类算法评估的原则：组内距离最小，组间距离最大（八）评估聚类效果聚类算法结果评估的原则是小的组内距离和大的组间距离

K-means算法实现过程02K均值聚类算法是先随机选取K个对象作为初始的聚类中心。然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。肘部法是一种常用的K-Means聚类算法中确定K值的方法之一。其基本思想是随着聚类数K的增加，样本点到其所属类的距离会逐渐减小，因此K值增大会导致聚类效果变好。当K值增加到一定程度时，聚类效果提升的效果会逐渐变小，这时再增加K值就不会对聚类效果产生显著的改善，甚至会导致过拟合，即产生过多的子簇，从而使聚类效果变差。故当聚类效果由好开始变坏时的K值即是选择的K值。

02假定取K=3，以下复现K-means算法对样本实现聚类的过程。左图为待聚类的样本。选取3个中心点，右图所示，红色、绿色和蓝色方框分别是选定的3个中心点。（一）随机选取中心点K-means算法实现过程待聚类的样本选取中心点红色、蓝色、绿色方框为中心点

02对每个样本，找到距离自己最近的中心点，完成一次聚类。判断此次聚类前后样本点的聚类情况是否相同，若相同，算法终止。否则继续下一步。（二）通过距离度量进行类别划分K-means算法实现过程完成了一次聚类后的结果

02（三）根据该次聚类的结果，更新中心点K-means算法实现过程重新选定了中心点

02对每个样本，找到距离自己最近的中心点，完成一次聚类，