- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
聚类分析优秀教案
层次聚类法的树状表示 类间距离 阈值增大, 分类变粗。 五、 动态聚类法 两种常用算法: * K-均值算法(或C-均值算法) * 迭代自组织的数据分析算法(ISODATA, iterative self-organizing data analysis techniques algorithm) 判断 合理性 选初始 中心 聚类 合理 不合理 输出 修改 图9 动态聚类法的基本思路 K-均值算法的聚类准则:聚类中心Zj的选择应使准则函数J极小, 即使Jj的值极小。 1 K-均值算法 基于使聚类准则函数最小化, 准则函数:聚类集中每一样本点到该类中心的距离平方和。 对于第j个聚类集,准则函数定义为 Sj:第j个聚类集(域),聚类中心为Zj ; Nj:第j个聚类集Sj中所包含的样本个数。 对所有K个模式类有 应有 即 可解得 上式表明,Sj类的聚类中心应选为该类样本的均值。 1) 算法描述 括号内序号:迭代运算的次序号。 (1)任选K个初始聚类中心:Z1(1), Z2(1),…, ZK(1) (2)按最小距离原则将其余样本分配到K个聚类中心中的某一 个,即: 若 ,则 注意:k——迭代运算次序号;K——聚类中心的个数 。 Nj:第j类的样本数。 (3)计算各个聚类中心的新向量值: (4)如果 ,则回到(2),将模式 样本逐个重新分类,重复迭代计算。 这里:分别计算K个聚类中的样本均值向量,故称K-均值算法。 ,算法收敛,计算完毕。 如果 聚类过程中, 聚类中心位置或个数发生变化。 “动态”聚类法 ? 2) 算法讨论 结果受到所选聚类中心的个数和其初始位置,以及模式样 本的几何性质及读入次序等的影响。实际应用中需要试探不同 的K值和选择不同的聚类中心起始值。 例:已知20个模式样本如下,试用K-均值算法分类。 解:① 取K=2,并选: ② 计算距离,聚类: : : : : ……,可得到: ③ 计算新的聚类中心: ④ 判断: ,故返回第②步。 ② 从新的聚类中心得: : ┋ : 有: ③ 计算聚类中心: ④ 返回第②步,以Z1(3), Z2(3)为中心进行聚类。 ② 以新的聚类中心分类,求得的分类结果与前一次迭代结果相 同: ③ 计算新聚类中心向量值,聚类中心与前一次结果相同,即: ④ ,故算法收敛,得聚类中心为 结果图示: 图10 K-均值算法聚类结果 X1 X4 X3 X5 X8 X9 X7 X10 X2 X6 x1 x2 1 3 5 7 9 1 3 5 7 9 0 X11 X12 X13 X14 X15 X16 X17 X18 X19 X20 上述K-均值算法,其类型数目假定已知为K个。当K未知时, 可以令K逐渐增加, 此时J j 会单调减少。最初减小速度快,但当 K 增加到一定数值时,减小速度会减慢,直到K =总样本数N 时,Jj = 0。Jj-K关系曲线如下图: 3)聚类准则函数Jj与K的关系曲线 Jj A 1 3 5 7 2 4 6 0 8 10 9 K 曲线的拐点 A 对应着接近最优 的K值(J 值减小量、计算量以及 分类效果的权衡)。 并非所有的情况都容易找到关 系曲线的拐点。迭代自组织的数据 分析算法可以确定模式类的个数K 。 2 迭代自组织的数据分析算法 (iterative self-organizing data analysis techniques algorithm,ISODATA) 算法特点 加入了试探性步骤,组成人机交互的结构; 可以通过类的自动合并与分裂得到较合理的类别数。 相似:聚类中心的位置均通过样本均值的迭代运算决定。 相异: K-均值算法的聚类中心个数不变; ISODATA的聚类中心个数变化。 与K-均值算法比较: 1)算法简介 基本思路: (1)选择初始值——包括若干聚类中心及一些指标。可在迭代运 算过程中人为修改,据此将N个模式样本分配到各个聚类中 心去。 (3)聚类后的处理:计算各类中的距离函数等指标,按照给定的 要求,将前次获得的聚类集进行分
您可能关注的文档
- 职位序列、层级划分与职位管理精品.ppt
- 职位序列(族)地各种划分1.0.doc
- 职位薪酬等级体系方案.ppt
- 职位职级发展体系方案方案.pptx
- 职业规划培训ppt培训.pptx
- 职务解析问卷(PAQ).doc
- 职位说明书范文(55份全套职务说明.doc
- 职场减压 培训教案20144.ppt
- 职场常见商务礼仪优秀.ppt
- 职场人际关系与沟通优秀.ppt
- 2026及未来5年中国苯丙内墙乳胶漆市场数据分析研究报告.docx
- 2026及未来5年中国微波涂膜烘干固化设备市场数据分析研究报告.docx
- 2026及未来5年中国碱性橙染料市场数据分析研究报告.docx
- 2026及未来5年中国室外广告栏市场数据分析研究报告.docx
- 2026及未来5年中国玄麦甘桔颗粒市场数据分析研究报告.docx
- 2026及未来5年中国手提式汽油抢险切割机市场数据分析研究报告.docx
- 2026及未来5年中国彩色液压软管市场数据分析研究报告.docx
- 2026及未来5年中国多用途防滑垫市场数据分析研究报告.docx
- 2026及未来5年中国粘尘纸本市场数据分析研究报告.docx
- 2026及未来5年中国带状式光缆市场数据分析研究报告.docx
原创力文档


文档评论(0)