- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
任务一完成基于K-means的汽车产品聚类分析实训
机器学习技术的基础应用;
任务导入@Sk
某无人汽车制造商打算开发一款新系列的汽车产品,在汽车产品开发
之前需要了解消费者需求、市场趋势以及竞争对手情况等信息,从而更好地制定产品策略和市场推广方案。你作为该制造厂市场部门的市场数据分析师,主要职责是分析市场数据、趋势和消费者行为,以协助企业做出战略决策。
现需要你利用Python编程语言和统计学知识对市场上的各类型汽车的竞品进行分析,帮助汽车制造商了解市场格局以及消费者需求,从而为产品设计和开发提供指导。;
技能目标
·掌握使用机器学习工具sklearn库搭建K-means模型。
·能够思考并确立好基于K-means实现对汽车产品数据分析的思路。培养勤于思考的职业习惯。;
聚类分析算法定义与实现过程
K-means算法实现过程
K-means适用情形与应用场景
基于K-means实现汽车产品聚类分析
项目;
●聚类分析定义
聚类分析是一种无监督学习方法,通过度量数据
点之间的距离来捕捉它们之间的相似性,并将它们分成相似的类别。
●聚类分析过程
聚类分析的过程包括选择合适的距离度量方法、
选择聚类算法、初始化聚类中心、计算相似性、将数据点分配到聚类中心、更新聚类中心、重复以上步骤、评估聚类效果等步骤。;
01聚类分析算法定义与实现过程
(一)选择合适的距离度量方法
欧式空间距离
指的是两个点在空间中的最短直线距离。;
又称“城市街区距离”(CityBlock
distance)或“出租车距离”。指从一个十字路口开车到另一个十字路口的驾驶距离。;
01聚类分析算法定义与实现过程
(二)选择聚类算法
聚类算法可以是层次聚类、k-means聚类、
DBSCAN聚类等。每种算法都有其适用的场景和特点,需要根据问题需求选择合适的算法。
(四)计算相似性
对于每个数据点,计算其与其他数据点的
相似性,即距离。可以根据选择的距离度量方法来计算距离。;
(六)更新聚类中心
重新计算每个聚类的中心,即聚类中所有
数据点的平均值。;
聚类算法结果评估的原则是小的组内距离和大的组间距离
且内距鹰最小
组内距离小:聚类后的每一个类别中
成员与成员之间的相似度高
组间距离大:聚类后不同类别的成员
之间的相似度低;
K-means算法实现过程
K均值聚类算法是先随机选取K个对象作为初始的聚类中心。然后计算每个对象与
各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。
肘部法是一种常用的K-Means聚类算法中确定K值的方法之一。其基本思想是
随着聚类数K的增加,样本点到其所属类的距离会逐渐减小,因此K值增大会导致聚类效果变好。
当K值增加到一定程度时,聚类效果提升的效果会逐渐变小,这时再增加K值
就不会对聚类效果产生显著的改善,甚至会导致过拟合,即产生过多的子簇,从而使聚类效果变差。故当聚类效果由好开始变坏时的K值即是选择的K值。;
左图为待聚类的样本。选取3个中心点,右图所示,红色、绿色和蓝色方框分别是选定的3个中
心点。;
对每个样本,找到距离自己最近的中心点,完成一次聚类。判断此次聚类前后样本点的聚类情
况是否相同,若相同,算法终止。否则继续下一步。;
K-means算法实现过程;
对每个样本,找到距离自己最近的中心点,完成一次聚类,判断与此次聚类前样本点的聚类情
况是否相同。若相同,算法终止,否则继续下一步。;
根据聚类结果,再次更新中心点;
对每个样本,找到距离自己最近的中心点,完成一次聚类。判断与此次聚类前样本点的聚类情
况是否相同。;
(七)算法在上一步终止,最终的聚类结果;
03K-means适用情形与应用场景
(一)K-means算法的适用情形
K-means算法适用于以下情形:数据集包含数值型数据、数据集具有固定的类别数量、数据集具
有较大的数据量、聚类结果的可解释性较强。
数据集包含数值型数据
K-means算法是一种基于距离度量的算法,因此它适用于数值型数据。
例如连续的数值变量。;
172,773
222,996
数据集具有固定的类别数量;
03K-means适用情形与应用场景
(一)K-means算法的适用情形
聚类结果不需要完美
由于采用随机选取中心点的方法,K-means算法通常不能保证找到全局最优解,因此它适用于那
些对聚类结果没有强烈要求的应用场景。
数据集具有较大的数据量
K-means算法是一种可扩展的算法,它可以处理大量的数据点,并且可以通过并行化等方式
您可能关注的文档
- 5-土木工程科学数据分析方法课件 第四章 线性回归分析.pptx
- Python人工智能技术与应用课件:Python 数据探索性分析.pptx
- Python人工智能技术与应用课件:Python人工智能的基础应用.pptx
- Python人工智能技术与应用课件:调研分析计算机视觉技术.pptx
- Python人工智能技术与应用课件:调研分析人工智能关键技术.pptx
- Python人工智能技术与应用课件:调研分析语音识别技术.pptx
- Python人工智能技术与应用课件:调研分析自然语言处理技术.pptx
- Python人工智能技术与应用课件:基于深度学习的自然语言处理技术应用.pptx
- Python人工智能技术与应用课件:利用图像分类技术进行驾驶员状态识别.pptx
- Python人工智能技术与应用课件:认知Python基础命令.pptx
- Python人工智能技术与应用课件:认知和处理音频数据.pptx
- Python人工智能技术与应用课件:完成 Python 网络爬虫实训.pptx
- Python人工智能技术与应用课件:完成OpenCV与图像处理基础实训.pptx
- 道路工程材料课件 粗集料的技术性质.pptx
- 道路工程材料课件 道路石油沥青.pptx
- 道路工程材料课件 粉煤灰.pptx
- 道路工程材料课件 石灰.pptx
原创力文档


文档评论(0)