- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2015 —2016 学年第 1 学期
硕士研究生 多媒体信息处理技术 课程设计
年级与专业 计算机应用技术 学号 1120150620 姓名 蒲朝仪
二分K均值聚类算法在Iris上的测试
目录
TOC \o 1-3 \h \u HYPERLINK \l _Toc16425 一、问题背景 PAGEREF _Toc16425 3
HYPERLINK \l _Toc14709 二、解决思路 PAGEREF _Toc14709 4
HYPERLINK \l _Toc10142 (1)K均值算法思想 PAGEREF _Toc10142 4
HYPERLINK \l _Toc11816 (2)二分K均值算法 PAGEREF _Toc11816 4
HYPERLINK \l _Toc18921 三、实验结果 PAGEREF _Toc18921 5
HYPERLINK \l _Toc16697 (1)数据集 PAGEREF _Toc16697 5
HYPERLINK \l _Toc12668 (2)实验结果 PAGEREF _Toc12668 7
HYPERLINK \l _Toc31820 四、观察分析 PAGEREF _Toc31820 9
HYPERLINK \l _Toc11901 参考文献 PAGEREF _Toc11901 10
HYPERLINK \l _Toc28603 附录 PAGEREF _Toc28603 11
HYPERLINK \l _Toc13697 附录1 实验数据汇总结果展示 PAGEREF _Toc13697 11
HYPERLINK \l _Toc21722 附录2 二分K均值算法功能实现主要代码 PAGEREF _Toc21722 13
PAGE \* MERGEFORMAT
PAGE \* MERGEFORMAT 3
一、问题背景
目前,对于聚类问题的研究普遍存在于社会生活中的各个领域,如模式识别,图像处理、机器学习和统计学等。关于对生活中各种各样的数据的聚类分类问题己经成为众多学者的研究热题之一[1]。聚类和分类的区别在于,聚类没有任何先验知识可循,要通过数据自身的特点,将数据自动的划分到不同的类别中。聚类的基本形式定义为“在已给的数据集合中寻找数据点集的同类集合。每一个集合叫做一个类,并确定一个区域,在区域中对象的密度高于其他区域中的密度”[2]。
聚类方法有很多种,其中最简单的形式便是划分式聚类,划分式聚类试图将给定的数据集合分割成不相交的子集,使具体的聚类准则是最优的。实际中应用最广泛的准则是聚类误差平方和准则,即对于每一个点都计算它到相应的聚类中心点的平方距离,并对数据集合上的所有点的距离进行求和。一种最流行的基于最小聚类误差平法和的聚类方法是K-均值算法。K-均值算法是一种基于划分的聚类算法,它通过不断的迭代来进行聚类,当算法收敛到一个结束条件时就终止迭代过程,输出聚类结果。由于其算法思想简便,又容易实现对大规模数据的聚类,因此K-均值算法己成为一种最常用的聚类算法之一[3]。K-均值算法能找到关于聚类误差的局部的最优解,是一个能应用在许多聚类问题上的快速迭代算法。它是一种以点为基础的聚类算法,以随机选取的初始点为聚类中心,迭代地改变聚类中心来使聚类误差最小化。
K-均值算法由于其聚类过程简单,易于实现,因此已经成为当前最常用的聚类算法之一。但是K-均值的算法的聚类结果容易受到初始聚类中心点的选取的影响,不稳定,且容易受到数据中的噪声点、离群点的影响[4]。并且在K-均值方法的迭代过程中由于初值的选取就有随机性就会导致聚类容易陷入局部最优,而找不到全局最优。K-均值缺点详细介绍如下:
第一,K-均值算法中的K值必须由用户输入,在算法的流程图中我们可以看出,K-值是必须是一个用户最先确定的参数。K-均值方法必须在 K-值已知的前提下才能进行聚类。但是在一些实际问题的求解过程中,自然簇的个数K是没有事先给出的,通常是用户所不知道的。
第二,K-均值聚类算法对于噪声和离群点数据非常敏感,聚类结果很容易受到数据中所含有的噪声和离群点的影响。该算法中在簇的质心求解过程中,是通过对每个簇求均值得到的,当数据集中含有噪声和离群点数据时,在计算质心时将导致聚类中心偏离数据真正密集的区域,而得到的聚类中心将向噪声和离群点数据所在的区域偏移, 然后在此基础上进行数据点的重新分配,这必然会引起聚类结果的不准确[5,6]。
二、解决思路
本课程主要针对K均值的有点以及对K值的初始选择这一限制,设计一种改进的K-均值聚类方法,即二分K均值算法。通过查阅资料总结,二分K均值算法可以加速K-均值算法的执行速度
您可能关注的文档
- web浏览器设计与实现.doc
- Web实验报告课程设计.doc
- yyy叶万顺与李岩陆组IB储罐设计.pdf
- Zigbee课程设计论文.doc
- θ调制实验 假彩色 改进.pdf
- τ-p变换在地球物理学中的应用.docx
- 安工大数据库课程设计.docx
- 安工大自动控制原理串联校正课程设计.pdf
- 安徽工程大学化工原理课程设计苯-氯苯连续板式精馏塔设计.pdf
- 安徽工程大学液氨储罐设计.pdf
- 2026及未来5年中国高压型压力变送器市场调查、数据监测研究报告.docx
- 2026及未来5年中国擦鞋盒市场调查、数据监测研究报告.docx
- 2026及未来5年中国英式转欧式插座市场调查、数据监测研究报告.docx
- 2026及未来5年中国杜邦刷辊市场调查、数据监测研究报告.docx
- 2025年事业单位工勤技能-内蒙古-内蒙古农业技术员一级(高级技师)历年参考题典型考点含答案解析.docx
- 2025年事业单位工勤技能-四川-四川地质勘查员三级(高级工)历年参考题典型考点含答案解析.docx
- 2026及未来5年中国全自动夹烫机市场调查、数据监测研究报告.docx
- 2026及未来5年中国全智能型移动通信电源系统市场调查、数据监测研究报告.docx
- 2026及未来5年中国海藻活肤沐浴露市场调查、数据监测研究报告.docx
- 2026及未来5年中国壁装式室内云台市场调查、数据监测研究报告.docx
最近下载
- 烟台大学 积极心理学教案烟台大学 积极心理学教案.doc VIP
- 内镜室护士培训课件.pptx VIP
- TED中英官方演讲稿-PatriciaMedici_2015F[Patricia Medici][你一无所知的一种最酷的动物 _ 我们该如何拯救它].pdf VIP
- 专题十 等边三角形(2)——手拉手与夹半角的构造.pptx VIP
- 课题结题报告.docx VIP
- 生成式AI在初中数学课堂中促进分层教学的实践研究教学研究课题报告.docx
- 2022年新生儿科第二季度核心能力考试 (1).docx VIP
- 已更新:安全生产法律法规清单(2025年6月版).doc
- 专题二 全等基本结构(2)——夹半角的构造与截长补短.pptx VIP
- 档案录入员考试真题及答案.docx VIP
原创力文档


文档评论(0)