- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
第5章机器学习与实现聚类思想与K-均值聚类K-均值聚类应用举例
聚类思想第5章聚类分析主要是使类内的样本尽可能相似,而类之间的样本尽可能相异。聚类问题的一般提法是,设有n个样本的维观测数据组成一个数据矩阵为:其中,每一行表示一个样本,每一列表示一个指标,xij表示第i个样本关于第j项指标的观测值,并根据观测值矩阵X对样本进行聚类。聚类分析的基本思想是:在样本之间定义距离,距离表明样本之间的相似度,距离越小,相似度越高,关系越紧密;将关系密切的聚集为一类,关系疏远的聚集为另一类,直到所有样本都聚集完毕。
K-均值聚类方法第5章K-均值聚类是一种基于原型的、根据距离划分组的算法,其时间复杂度比其他聚类算法低,用户需指定划分组的个数K。其中,K-均值聚类常见距离测度包括欧几里得距离(也称欧氏距离)、曼哈顿距离、切比雪夫距离等。K-均值聚类默认采用欧氏距离进行计算,其公式如下:(表示第个i样本与第个j样本之间的欧氏距离)K-均值聚类算法的直观理解如下:Step1:随机初始化K个聚类中心,即K个类中心向量。Step2:对每个样本,计算其与各个类中心向量的距离,并将该样本指派给距离最小的类。Step3:更新每个类的中心向量,更新的方法为取该类所有样本的特征向量均值。Step4:直到各个类的中心向量不再发生变化为止,作为退出条件。
K-均值聚类方法第5章xi1.51.71.62.12.22.42.51.8yi2.51.32.26.25.27.16.81.9将8个数据样本聚为两类,其算法执行如下Step1:初始化两个类的聚类中心,这里取前两个样本分别为聚类中心。C1=(1.5,2.5),C2=(1.7,1.3)到达C1的距离:01.220.323.752.794.694.410.67到达C2的距离:1.22?00.914.923.935.845.560.61各样本所属类:?121?1??1?1??1?2Step2:分别计算每个样本到达各个聚类中心的距离:Step3:更新聚类中心,更新方法为计算所属类的特征向量的均值C1=((1.5+1.6+2.1+2.2+2.4+2.5)/6,(2.5+2.2+6.2+5.2+7.1+6.8)/6)=(2.05,5)C2=((1.7+1.8)/2,(1.3+1.9)/2)=(1.75,1.6)
K-均值聚类方法第5章xi1.51.71.62.12.22.42.51.8yi2.51.32.26.25.27.16.81.9将8个数据样本聚为两类,其算法执行如下返回Step2,重新计算各样本到达各聚类中心的距离。到达C1的距离:2.563.722.841.20.252.131.863.11到达C2的距离:0.930.30.624.613.635.545.250.3各样本所属类:?2???2??2??1?1?1?1????2同理更新聚类中心得C1=(2.3,6.325)C2=(1.65,1.975)返回Step2,重新计算各样本到达各聚类中心的距离。到达C1的距离:3.915.064.180.241.130.780.524.45到达C2的距离:0.550.680.234.253.275.184.90.17各样本所属类:?2????2??2??1???1??1?1????2同理更新聚类中心得C1=(2.3,6.325)C2=(1.65,1.975)Step4:这里我们发现,聚类中心不再发生变化,而且类归属也没有发生变化。其实正是因为类归属没有发生变化,才导致了聚类中心不再发生变化,达到算法终止条件。故样本1、2、3、8归为一类,样本4、5、6、7归为另一类。
K-均值聚类算法应用举例第5章对表所示的31个地区2016年农村居民人均可支配收入情况做聚类分析地区工资性收入(X1)经营净收入(X2)财产净收入(X3)转移净收入(X4)北京16637.52061.91350.12260天津12048.15309.4893.71824.4河北626351428.6山西5204.427291内蒙古2448.96215.7452.62491.7…………1.数据获取及标准化处理importpandasaspddata=pd.read_excel
您可能关注的文档
- Python金融数据分析与挖掘(微课版) 课件 1-1. Python基本数据类型与基本数据结构.pptx
- Python金融数据分析与挖掘(微课版) 课件 1-2. Python公有方法.pptx
- Python金融数据分析与挖掘(微课版) 课件 1-3. Python基本数据结构方法.pptx
- Python金融数据分析与挖掘(微课版) 课件 2-1. 数组创建与操作.pptx
- Python金融数据分析与挖掘(微课版) 课件 2-2. 矩阵与线性代数运算.pptx
- Python金融数据分析与挖掘(微课版) 课件 3-1.序列.pptx
- Python金融数据分析与挖掘(微课版) 课件 3-2.数据框.pptx
- Python金融数据分析与挖掘(微课版) 课件 3-3.外部文件读取.pptx
- Python金融数据分析与挖掘(微课版) 课件 3-4.常用函数.pptx
- Python金融数据分析与挖掘(微课版) 课件 3-5.常用计算任务.pptx
文档评论(0)