- 1、本文档共22页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基本思想是,样本容量较大时,选择一批凝聚点或给出一个初始的分类,让样品按某种原则向凝聚点凝聚,对凝聚点进行不断的修改或迭代,直至分类比较合理或迭代稳定为止。 动态聚类法有许多种方法,本节中,只讨论一种比较流行的动态聚类法——k均值法。k均值法是由麦奎因(MacQueen,1967)提出并命名的一种算法。 §6.3快速聚类法(动态聚类法) 类的个数k可以事先指定,也可以在聚类过程中确定。选择初始凝聚点(或给出初始分类)的一种简单方法是采用随机抽选(或随机分割)样品的方法。 选择凝聚点 分 类 修改分类 分类是否合理 分类结束 Yes No 用一个简单的例子来说明动态聚类法的工作过程。例如我们要把图中的点分成两类。快速聚类的步骤: (a)空间的群点 (b) 任取两个聚点 (c) 第一次分类 (d) 求各类中心 (b) (e) 第二次分类 5.对空间中的点进行重新分类,得到新分类, 图(e). 1. 快速聚类法的步骤 (1) 选择聚点 3) 最小最大原则 这样按密度大小考察下去,所选代表点间的距离都大于d1。 d1太小,代表点太多,d1太大,代表点太少, 一般选d1=2d。对代表点内的密度一般要求 大于T。T0为规定的一个正数。 4)按密度大小选代表点: 以每个样本作为球心,以d为半径做球形;落在球 内的样本数称为该点的密度,并按密度大小排序。 首先选密度最大的作为第一个代表点,即第 一个聚类中心, 再考虑第二大密度点,若第二大密度点距第 一代表点的距离大于d1(人为规定的正数)则把 第二大密度点作为第二代表点,否则不能作为代 表点。 (2) 此后过程(假设采用欧氏距离) 5) 用前k个样本点作为代表点 当m增大,分类趋于稳定时, 实际计算,当m步与m+1步分类结果完全相同时, 聚类过程结束。 结论: (1)中心向量=中位向量(有较强的稳健性) (2)中心向量=均值向量. 解: 初始聚点 最终结果(部分) 相关信息 中位数向量 类间距离 ① 选一批代表点后,代表点就是聚类中心,计算其它样本到聚类中心的距离,把所有样本归于最近的聚类中心点,形成初始分类,再重新计算各聚类中心,称为成批处理法。 ② 选一批代表点后,依次计算其它样本的归类,当计算完第一个样本时,把它归于最近的一类,形成新的分类。再计算新的聚类中心,再计算第二个样本到新的聚类中心的距离,对第二个样本归类。即每个样本的归类都改变一次聚类中心。此法称为逐个处理法。 ③ 直接用样本进行初始分类,先规定距离d,把第一个样品作为第一类的聚类中心,考察第二个样本,若第二个样本距第一个聚类中心距离小于d,就把第二个样本归于第一类,否则第二个样本就成为第二类的聚类中心,再考虑其它样本,根据样本到聚类中心距离大于还是小于d,决定分裂还是合并。 三、初始分类和调整 最佳初始分类。 如图所示,随着初始分类k的增大,准则函数下降很快,经过拐点A后,下降速度减慢。拐点A就是最佳初始分类。 1、随机选取两个点和作为聚点,图(b)
2、对任何点,分别计算和.
1)经验选择个样品作为聚点;
3、若则将划为第一类,否则划给第二类。于是得图(c)的两个类
.
4.分别计算两个类的重心,则得和,以其为新的聚点,图(d),
其中分量均为中位数.
使得
2) 人为选择个样品作为聚点;
2) 计算新聚点 .
2. 用距离进行快速聚类
从而
(i) 先选2个,
重新分类:
距离即明氏距离(Minkowski)
(2) 对一般,记
(ii) 再选第3个, 满足
3) 设在第步已得
(iii) 一般设已选个, 则第个由以下式子确定
(1)对,记。
直到个.
当维数, , 有(证略)
。
1) 设初始聚点集
初始分类()(最近者)
类重心点集
当维, , 也有
(称为中位向量)
得到新分类集
对,也称绝对距离
记。
当维, 称
为中心
当维, 称
为中心向量
其中分量均为的中心, 满足
从而
对一维数据,宜用; 此外用.结果与有关
例6.3 利用表6.1的13个国家可持续发展综合国力的数据进行分类(4类), (1) 用; (2) 用.
您可能关注的文档
- 数字电子技术经典_CMOS门电路讲课.ppt
- 快乐端午节创意鸭蛋绘解说.ppt
- 2014年沈阳中考各科复习语文数学英语物理化学及绪论.docx
- 快乐寒假_平安相伴解说.ppt
- 肾动态显像讲课.ppt
- 快乐巧思作文写景篇解说.ppt
- 审计学第2章讲课.ppt
- 精品高财_物价变动会计解说.ppt
- 审计-删版2014讲课.ppt
- 数字电子技术基础讲课.ppt
- 洋葱销售SOP流程及关键动作相关知识测试试卷.docx
- 深度解析《GBT 43841-2024内蒙古绒山羊》.pptx
- 电气设备运维及机械部件相关知识测试试卷.docx
- 深度解析《GBT 43843-2024网络协同制造平台数据服务要求》.pptx
- 思维倾向与开放性自我评估试卷.docx
- 危险化学品企业特殊作业安全相关知识考试试卷.docx
- 深度解析《GBT 43844-2024IPv6地址分配和编码规则 接口标识符》.pptx
- 智慧教学整体解决方案(1).doc
- 多重耐药菌感染防治知识及预防措施试卷.docx
- 深度解析《GBT 43845-2024基于扫描氮-空位探针的微弱静磁场成像测量方法》.pptx
文档评论(0)