- 3
- 0
- 约2.35千字
- 约 22页
- 2022-12-30 发布于广东
- 举报
3K-meanscluster2K-均值聚类1学习目标理解有监督学习和无监督学习的概念和区别掌握直方图的应用和绘制理解K-均值聚类的原理树立数字化思维Part 01课程导入导入与预备知识课前思考思考一性别和兴趣爱好的填写方式有何不同?为什么会出现这种不同?思考二分别按照性别和兴趣爱好对同学进行分组,可以怎么分组?这两种属性在分组过程中有何不同?概念理解无监督学习有监督学习训练数据无标记信息例如:根据苹果大小、口味、颜色等特征,区分产地种类(事先不知,无标记)聚类训练数据有标记信息例如:已知老用户体征信息和性别(标记信息),根据新用户的体征信息预测性别分类、回归Part 02商场客户分析案例分析背 景某商场尝试对会员客户进行分析,了解不同类型的客户特征,以便针对不同的会员客户类型制定不同的营销策略,实现精准营销。问题一客户基本信息分析,包括客户年龄、年收入、消费积分的分布情况;年龄、年收入与消费积分之间的关系等。问题二利用K-均值模型进行聚类分析,对客户进行聚类。问题三对聚类结果进行雷达图的可视化分析,探索每类客户的特征。客户数据示例了解数据Customer_IDAgeAnnual_IncomeSpending_Score1191539221158132016642316775311740Customer_IDAgeAnnual_IncomeSpending_Score1191539221158132016642316775311740字段说明Customer_ID顾客IDAge年龄Annual_Income年收入(万元)Spending_Score消费积分,范围1-100问题一分析问题一客户基本信息分析,包括客户年龄、年收入、消费积分的分布情况;年龄、年收入与消费积分之间的关系等。年龄、年收入与消费积分之间的关系:对于变量之间的关系,利用散点图分析。客户年龄、年收入、消费积分的分布情况:对于分布情况,利用/item/直方图/1103834?fr=aladdin直方图分析。描述性统计分析导入数据关系散点图分布直方图查看数据概况,为后续分析作图做准备分析年龄、年收入与消费积分之间的关系探索客户年龄、年收入、消费积分的分布情况问题一思路关系散点图导入数据年龄与消费积分关系年收入与消费积分关系描述性统计分析分布直方图客户年龄分布图客户年收入分布图消费积分分布图直方图绘制Python中可以利用matplotlib.pyplot模块中的hist函数来绘制直方图对象。hist()函数的格式如下:hist(x, bins=None, edgecolor,color…)参数说明x数据bins直方图每组端点坐标edgecolor边缘颜色color填充颜色Part 03K-均值聚类算法原理问题二分析问题二利用K-均值模型进行聚类分析,对客户进行聚类。本案例需要对客户进行聚类,了解不同类型的客户特征。由于客户没有已知的分类类型,即分类标签,所以这是一个无监督学习的问题,对于此类问题,可以考虑用K-均值聚类的方法将客户按相似性分为不同的类别。K 均值聚类同簇中样本间距离较近不同簇中样本间距离较远聚类:“物以类聚,人以群分”。聚类就是根据相似度进行样本分类的一种方法,让同类别中的样本有较高的相似度,让不同类别间的样本有较低的相似度,从而将样本分成不同的类别。K-均值算法(K-Means),采用距离作为相似性的度量,即如果两个对象的距离越近,则认为两个对象的相似度越大。10个点聚类为3类的算法示例过程K 均值聚类原始数据① 随机选取3个点作为初始聚类中心点(质心)。② 计算所有点到3个中心点的距离,将每个点分配到离它最近的中心点所在簇。③ 以每个簇的样本坐标平均值作为新的中心点。?K 均值聚类③ 以每个簇的样本坐标平均值作为新的中心点。?④ 计算所有点到3个新的中心点的距离,将每个点重新分配到离它最近的中心点所在簇。聚类结果⑤ 重复③④的步骤,直到所有样本所属簇不再发生变化时,聚类结束。?K 均值演示https://ediconss.github.io/html/3.kmeans.html
演示网址演示网址二维码:推荐横屏选择“高斯混合”数据讨论一采用“离中心最远”的质心选择方式,添加不同的数量的质心,得到的聚类效果相同吗?你们认为添加几个质心是恰当的?讨论二采用“随机”的质心选择方式,多运行几次,看看结果是否相同? K-均值对K值的设置敏感 不同的K值,聚类结果不同 K值的选择CH指数最大值,K值为6参考CH指数确定K值CH指数越大代表着簇自身越紧密,簇与簇之间越分散,即更优的聚类结果。结合图形观察K值取3 K-均值对初始中心点位置敏感聚类结果第一种初始中心点聚类结果第二种初始中心点 初始中心点位置不同,聚类结果可能不同K-均值聚类的Python实现参
您可能关注的文档
最近下载
- SY_T 5333-2023 钻井工程设计规范.pdf VIP
- 深度解析(2026)《SYT 5946-2019钻井液用包被抑制剂 聚丙烯酰胺钾盐》.pptx VIP
- 卧式储罐体积容积计算(带公式).xls VIP
- 深度解析(2026)《SYT 5661-2019钻井液用增粘剂 丙烯酰胺类聚合物》.pptx VIP
- SY_T 5061-2020 钻井液用石灰石粉.docx VIP
- 深度解析(2026)《SYT 5677-2019钻井液用滤纸》.pptx VIP
- ICU常用药物中英文对照一览表.doc VIP
- 心血管常用名词缩写和心血管常用药物英汉对照.pdf VIP
- ISO9001 质量管理体系全套(质量手册+程序文件+表格记录全套).doc VIP
- 深度解析(2026)SYT 5794-2010《钻井液用沥青类评价方法》:从标准解读到未来油田化学智能化应用的战略前瞻.pptx VIP
原创力文档

文档评论(0)