- 3
- 0
- 约1.64万字
- 约 4页
- 2018-12-20 发布于山东
- 举报
K2means聚类算法的研究.PDF
第 40 卷 第 3 期 太 原 理 工 大 学 学 报 Vol . 40 No . 3
2009 年 5 月 J OU RN AL O F TA IYU AN UN IV ER SIT Y O F T EC HN OL O GY May 2009
文章编号 (2009)
Kmean s 聚类算法的研究
韩晓红 ,胡 彧
(太原理工大学 计算机与软件学院 ,山西 太原 030024)
摘 要 :为解决原始 Kmean s 算法随机选取初始聚类中心对聚类结果的影响较大的不足 ,提
出了改进算法 。采取基于采样选取聚类中心距离的规则 ,进行多次选择决定最终的初始聚类中心 ,
使得改进后的算法受初始聚类中心选择的影响达到最小 ; 同时 ,在选取初始聚类中心后 ,对初值进
行数据标准化处理 。将改进的 Kmean s 算法应用于销售行业 ,结果显示 ,改进后的算法比原始的
算法在效率上得到了提高 。
关键词 :数据挖掘 ; Kmean s 算法 ;初始聚类中心 ;聚类分析
中图分类号 : TP30 16 文献标识码 :A
数据挖掘可以从大量有关数据中挖掘出隐含 用一组不 同的随机初始 中心 , 然后选取具有最小
的、先前未知的、对企业决策有潜在价值的知识和规 SSE 的簇集 。该策略虽然简单 ,但是效果可能不好 ,
则 。作为数据挖掘技术中的一种重要的方法 , K 这要依赖于数据集和寻找的簇的个数 ,在这种情况
mean s 聚类分析算法应用非常广泛 , 比如用于大量 下 ,算法可能只能得到局部最优 。也有文献采用这
销售数据的划分 。Kmean s 算法对于大量数据集 , 样的方法 :取一个样本 ,并使用层次聚类技术对它聚
( ) (
算法的可伸缩性好 , 时间复杂性为 O tk n 其中 , t 类 ,从层次聚类中提取 k 个簇 ,并用这些簇的质心作
是算法的迭代的次数 , k 是类的个数 , n 是数据集中 为初始质心 。该方法通常很有效 ,但仅对样本相对
的数据点数 ,一般 k ≤n , t ≤n) 。但是 ,笔者在应用 较少 ,且 k 相对于样本大小较小的情况 ,具有很大的
中发现 ,该算法存在诸多不足 。比如 ,在应用该算法 局限性 。因此 ,笔者提出了对数据集进行 l 次取样 ,
时 ,需要用户随机选取初始聚类中心 ,并给出类的个 然后再对取样的数据集采用 Kmean s 算法进行聚
数 ,而这个信息通常是聚类之后才知道的;其次是该
类 。将改进后的 Kmean s 算法应用于销售行业 ,结
( )
算法无法处理有分类属性 cat egorical at t ribut e 的
果表明 ,改进算法较原算法在准确率上有较大提高 ,
数据 ,且对孤立点敏感 ,不能发现非球形的类 ,或大
并具有较好的稳定性 。
小差别很大的类 ;其三是经常陷入局部最优解 ,而无
法得到全局最优解 。而选择适当的初始质心是该算 1 聚类分析算法
法运行过程的关键步骤 ,当质心随机初始化时 ,算法
1 . 1 Kmean s 聚类算法思想及基本步骤
的不同运行将产
您可能关注的文档
- 2016年扬中市城市建设投资发展总公司企业债券申购和配售.PDF
- 2016年湖北省政府专项债券(第一批).PDF
- 2017年佛山市三水新城(深圳)营商环境推介会.doc
- 2017年湖州市政府信息公开工作年度报告.doc
- 2017年连南县审计局预算公开.PDF
- 2018A00001期人民币理财产品说明书.PDF
- 2018年多个省燃煤锅炉改造补贴政策.PDF
- 2018年杭州余杭旅游集团有限公司.PDF
- BP神经网络在数学建模中的应用.doc
- BP算法及径向基函数网络.doc
- 宣贯培训(2026年)《NYT 4512-2025 非洲菊疫病抗性鉴定技术规程》.pptx
- 宣贯培训(2026年)《NYT 4514-2025木薯副产物综合利用导则》.pptx
- 宣贯培训(2026年)《NYT 4513-2025木薯全程机械化生产技术规范》.pptx
- 宣贯培训(2026年)《NYT 4470-2025全株玉米青贮质量分级》.pptx
- 宣贯培训(2026年)《NYT 4468-2025玉米供需平衡表编制规范》.pptx
- 宣贯培训(2026年)《NYT 4469-2025全株玉米青贮质量评定 综合指数法》.pptx
- 宣贯培训(2026年)《NYT 4474-2025东北地区玉米-大豆轮作生产技术规程》.pptx
- 宣贯培训(2026年)《NYT 4472-2025玉米耐盐碱鉴定评价技术规程》.pptx
- 宣贯培训(2026年)《NYT 4473-2025玉米抗旱性鉴定评价技术规程》.pptx
- 宣贯培训(2026年)《NYT 4478-2025甘薯收获技术规程》.pptx
最近下载
- 2025年新改版苏教版六年级下册科学全册精编知识点(背诵用).pdf
- 2025年国家义务教育质量监测小学四年级德育国测模拟测试题及答案.docx VIP
- 1-砖墙工程量计算表(自动计算).xls
- 【国测德育四年级】小学四年级德育优质均衡监测模拟试卷.docx VIP
- 四年级国测德育模拟试卷一及答案.docx VIP
- 新人教PEP六年级英语上册(全册)同步练习随堂练习一课一练.pdf VIP
- 七十岁驾照换证“三力测试”题库(含答案及解析).docx VIP
- 道路交通控制技术 道路交通控制基础知识 模块一 道路交通控制基础知识.pptx VIP
- 道路交通控制技术配时与性能参数计算一课件.pptx VIP
- 美术社团活动计划.docx VIP
原创力文档

文档评论(0)