第10章非监督学习方法精选.ppt

C-均值算法 样本集初始划分 代表点的几种选择方法: (4) 从(c-1)聚类划分问题的解中产生C聚类划分问题的代表点 先从一类聚类的解找两聚类划分的代表点,再依次增加一个聚类代表点。 对样本集首先看作一个聚类,计算其总均值,然后找与该均值相距最远的点,由该点及原均值点构成两聚类的代表点。 依同样方法,对已有(c-1)个聚类代表点(由(c-1)个类均值点组成)找一样本点,使该样本点距所有这些均值点的最小距离为最大,这样就得到了第c个代表点。 C-均值算法 样本集初始划分 在选定代表点后要进行初始划分,下面列出几种确定初始划分的方法 样本集初始划分 (1) 对选定的代表点按距离最近的原则将样本划属各代表点代表的类别。 (2) 在选择样本的点集后,将样本按顺序划归距离最近的代表点所属类,并立即修改代表点参数,用样本归入后的重心代替原代表点,因此代表点在初始划分过程中作了修改。 C-均值算法 样本集初始划分 样本集初始划分 (3) 一种既选择了代表点又同时确定了初始划分的方法 (4) 先将数据标准化 ,再按照某个指标平均分布样本 C-均值算法 迭代计算 c-均值算法的迭代计算过程在原理上与梯度下降法是一样的 即以使准则函数值下降为准则。 但是由于c-均值算法的准则函数值由数据划分的调整所决定,因此只能通过逐个数据从某个子集转移到另一子集计算准则函数值是否降低为准则 C-均

文档评论(0)

1亿VIP精品文档

相关文档