- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* 哈尔滨工业大学电信院 宿富林 * 例:各分量不同尺度对聚类的影响 * 哈尔滨工业大学电信院 宿富林 * 不同聚类算法的比较 间接的动态聚类算法: 优点:计算效率很高 其中,分级聚类算法比较适合于样本数较少的情况。 缺点:选定的模型常常不能反映数据的概率结构,得到的结果不能反映数据构造的真实情况。 只有通过选择各种各样的核函数以及分析这些核函数所得所到的聚类结果来部分地解决这个问题。 单峰子集类的分离法 优点:反映数据的概率结构 缺点:1)要对概率密度函数进行估计,计算量大。 2)在进行概率估计时要选定一些参数,估计的结果受到参数选择的较大影响。 3)在有噪声的情况下,具有局部最大值的概率密度函数的峰点都会发生变化,从而不能正确反映数据中的单峰子集数。 4)在样本数较少的情况下,由于没有可能对概率密度函数进行估计。这种方法完全失去意义。 * 哈尔滨工业大学电信院 宿富林 * * * 哈尔滨工业大学电信院 宿富林 * (e) 从c-1个聚类划分问题的解中产生C聚类划分问题的代表点 首先,将所有样本集看作一个聚类,计算其总均值,然后找与该均值相距最远的点,由该点及原均值点构成2聚类的代表点。 其次,依同样方法,对已有(c-1)个聚类代表点(由(c-1)个类均值点组成)找一样本点,使该样本点距所有这些均值点的最小距离为最大,这样就得到了第c个代表点。 代表点的选择会影响迭代结果。因为迭代得到的结果往往是局部最优而非全局最优。 * 哈尔滨工业大学电信院 宿富林 * (2)初始分类方法 (a) 对选定的代表点按距离最近的原则将样本划属各代表点代表的类别。 (b) 在选择样本的点集后,将样本按顺序划归距离最近的代表点所属类,并立即修改代表点参数,用样本归入后的重心代替原代表点。因此代表点在初始划分过程中作了修改。 * 哈尔滨工业大学电信院 宿富林 * (c) 一种既选择代表点又同时确定初始分类的方法 规定一阈值d,选w1={y1} 计算样本y2与y1的距离D(y2,y1),如其小于d,则y2归入w1;否则建立新的类别w2={y2}。 当轮到样本yj时,已有了K类即,而每类第一个入类样本分别为y1,y2,…,yk(作为每类的代表点),则计算D(yi,yj ),i=1,2,…,k; 若有D(yi,yj)d (对所有的i, i=1,…,k ),则建立新类 。否则将 yj归入与y1,y2,…,yk 距离最近的类别中。 重复上一步,直至所有样本分类 * 哈尔滨工业大学电信院 宿富林 * (d)标准化特征求和量化方法: i) 先将数据标准化 ii) 若yij 表示标准化后第i个样本的第j个特征量, 令: iii)求出SUM(i)的最大值与最小值 MA=max{SUM(i)}, MI=min{SUM(i)} iv)如果欲将样本划分为c类,则对每个i计算 v) 如所得结果非整数,则找到其最近整数K,将第i个样本归入第K类 * 哈尔滨工业大学电信院 宿富林 * 3.迭代计算 c-均值算法的迭代计算过程在原理上与梯度下降法是一样的,即以使准则函数值下降为准则。 但是由于c-均值算法的准则函数值由数据划分的调整所决定,因此只能通过逐个数据从某个子集转移到另一子集计算准则函数值是否降低为准则。 * 哈尔滨工业大学电信院 宿富林 * 对划分的修改规则 如果原属Гk 中的一个样本y从Гk 移入Гj 时,它会对误差平方和产生影响, Гk类在抽出样本y后其相应均值为 而样本y新加盟的Гj 集合均值 * 哈尔滨工业大学电信院 宿富林 * 由于y的移动只影响到k与j这两类的参数改动,因此,计算Jc值的变动只要计算相应两类误差平方和的变动即可,此时 总误差变化: 如果 则 即将样本y从Гk 移入至Гj 就会使误差平方总和Jc 减小,它表明样本变动是合乎准则要求的 * 哈尔滨工业大学电信院 宿富林 * 算 法 (1) 选择某种方法把样本分成C个聚类的初始划分,计算每个聚类的均值m1,…,mc和Jc (2) 选择一个备选样本y,设其在wi 中 (3) 若Ni=1,则转(2)(样本只有1个,不移出),否则继续下一步。 (4) 计算 * 哈尔滨工业大学电信院 宿富林 * (5) 对于所有的j,若ek≤ej (表明ekei)则将y从wi移到 wk中(否则, eiei ,不用移) (6) 重新计算mi和mk,并修改Jc 。 (7) 若连续迭代N
文档评论(0)