- 10
- 0
- 约4.86万字
- 约 68页
- 2019-03-30 发布于上海
- 举报
山东科技大学硕士学位论文
山东科技大学硕士学位论文 摘要
摘 要
数据挖掘是随着信息技术不断发展而形成的一门新兴的交叉学科,是信息处理和数 据库技术领域的前沿研究课题。
聚类分析是数据挖掘的一个非常重要的研究分支。聚类是一种无监督的分类方法, 目标是在没有任何先验知识的情况下,将数据集划分成不同的类,使得不同类中的对象 尽可能相异,相同类中的对象尽可能相似。K-means 算法作为聚类分析中的经典算法现 已被广泛应用在商务、市场分析、生物学、文本分类等领域。K-means 聚类算法具有较 强的局部搜索能力,但是对初始聚类中心敏感,容易陷入局部最优,影响了聚类结果。 而遗传算法是一种高效的全局搜索方法,它的局部搜索能力较差。本文将 K-means 聚类 算法与遗传算法相结合,互相取长补短,提出了一种基于遗传算法的 K-means 聚类算法
(KBGA),并通过实验验证了算法的有效性。 本文工作主要体现在以下几个方面:
首先,详细介绍了 K-means 聚类算法,分析了 K-means 聚类算法的优缺点,并在此 基础上,提出了解决缺点的方法。
其次,介绍了数据挖掘中的一个重要算法——遗传算法。对遗传算法的概念、组成、 应用流程、应用中的问题等进行了详细描述。
再次,提出了一种改进的遗传 K-means 聚类算法(KBGA)。由于传统的 K-means 算 法对初始聚类中心非常敏感,本文提出了一种基于相似度的最小最大原则的方法来选取 初始聚类中心,并提出了一种相应的改进的 K-means 聚类算法(IKA)。另外由于 K-means 聚类的初始聚类数 K 的选择也是是影响聚类的一个重要参数。为了获得高精度的聚类结 果,基于遗传算法和 K-means 算法的特点,本文提出了一种基于遗传算法的求 K 值方法 , 从编码方法、适应度函数的构造、选择算子、交叉算子和变异算子的设计等方面进行了 改进。
最后,为了测试本文提出的聚类算法的性能,本文通过实验对两种算法的聚类结果 进行比较,实验结果表明本文算法能够有效地解决聚类问题。
关键词:数据挖掘,聚类分析,遗传算法,K-means 算法
ABSTRACT
Data mining is a new interdisciplinary subject with the development of the information technology and is a cutting-edge research topic in the information and database technology fields .
Cluster ing analysis is one of the important research fields in the data mining. Cluster ing is an unsuper vised classifying met hod, the target of cluster ing is to partition data into different clusters that data within a cluster have high similarity and different clusters have the lowest similarity. As a classica l met hod of cluster ing analysis, K-means has been widely used in market analysis, biology, commerce, text classification and so on. K-means cluster ing algor ithm has strong loca l search ability, but the select ion of the initia l cluster ing centers is sensitive to the cluster ing results, is easy to fall into loca l optima l. However, the genet ic algor ithm is an efficient globa l search met hod, and its loca l search ability is poor. This paper will combine the advantage of K-means cluster ing algor ithm and genet ic algor ithm, and propose a K-means cluster ing
您可能关注的文档
- 基于网络安全的政府监管分析-行政管理专业论文.docx
- 基于塑性和弹性模型的日元美元汇率波动实证研究-金融学专业论文.docx
- 基于数据挖掘的体育成绩管理与体能分析系统-软件工程专业论文.docx
- 基于前景理论的随机模糊多属性决策方法的研究-管理科学与工程专业论文.docx
- 基于生活情境的中学物理教学对学生能力培养的研究-课程与教学论(物理)专业论文.docx
- 基于利益相关者的企业社会责任与企业价值关系研究-会计学专业论文.docx
- 基于决策树的港口后方堆场辅助决策应用的研究计算机技术专业论文.docx
- 基于碳排放的 产品质量设计与推广策略研究-企业管理专业论文.docx
- 基于随机波动率和随机利率的亚式期权定价-应用数学专业论文.docx
- 基于数据挖掘的高校成绩分析系统的设计与实现-计算机技术专业论文.docx
- 基于全寿命周期的并网光伏发电与风力发电低碳综合效益评估-电力系统及其自动化专业论文.docx
- 基于条件风险价值的股市风险分析-概率论与数理统计专业论文.docx
- 基于平衡计分卡的唐山市L区地税局绩效考核体系设计-工商管理专业论文.docx
- 基于人工免疫原理的入侵检测模型研究-计算机软件与理论专业论文.docx
- 基于网络的交互式教学法在大学英语翻译教学中的应用-课程与教学论(英语)专业论文.docx
- 基于六西格玛管理理念的政府流程再造研究-公共管理学专业论文.docx
- 基于偏最小二乘法的西北太平洋热带气旋强度预报模式-气象学专业论文.docx
- 基于生物力学探讨针刀整体松解术对兔膝骨性关节炎的作用机制-针灸推拿学专业论文.docx
- 基于神经网络的矿井提升机监测与故障诊断系统的研究电力电子与电力传动专业论文.docx
- 基于选择的语篇翻译——《柳林风声》汉译本对比分析英语语言文学专业论文.docx
最近下载
- 2026年内蒙古机电职业技术学院单招(计算机)考试备考题库附答案.docx VIP
- CIE_S_008E-2001室内工作场所照明.pdf
- 十五五智慧气象防灾减灾精准预报系统建设项目建设方案.docx
- 美剧剧本傲骨贤妻台词本中英文对照精排版第一季第一集.pdf VIP
- 河北省中考:2025年-2023年《物理》考试真题与参考答案.pdf
- 2.7 保护生物多样性 课件教科版科学六年级下册.ppt VIP
- (新教材统编版)高中政治 选择性必修2 《法律与生活》(思维导图).docx
- 渝22TS02 市政排水管道附属设施标准图集 DJBT50-159.pdf VIP
- 2026年内蒙古机电职业技术学院单招(计算机)考试备考题库附答案.docx VIP
- (新教材统编版)高中政治 必修1 《中国特色社会主义》(思维导图).docx
原创力文档

文档评论(0)