本科毕业论文-数据挖掘K均值算法实现.docVIP

下载本文档

14
0
约2.65万字
约 36页
2017-08-11 发布于未知
举报
版权申诉

本科毕业论文-数据挖掘K均值算法实现.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

本科生毕业论文设计数据挖掘K-均值算法实现作者姓名：指导教师：所在学院：数学与信息科学学院专业（系）：计算机科学与技术班级（届）： 2013届计算机班二零一三年五月二日目录中文摘要、关键字 1 1 绪论 3 1.1 本文研究的背景和意义 3 1.2 聚类分析国内外研究现状 5 1.3 本文所做的主要工作 7 2 聚类算法的分析与研究 8 2.1 数据挖掘简介 8 2.2 聚类的基本知识 8 2.2.1 类的定义及表示 9 2.2.2 聚类的相似度量方法 9 2.2.3 聚类间的距离测度函数 11 2.2.4 聚类分析的一般步骤 12 2.3 常用的聚类分析的方法介绍 13 2.3.1 基于划分的方法 13 2.3.2 基于密度的方法 13 2.3.3 基于层次的算法 13 2.3.4 基于模型的算法 14 2.3.5 基于网格的算法 14 2.4 常用的划分聚类算法的分析 14 2.4.1 K-均值聚类算法 15 2.4.2 K-中心聚类法 15 2.5 本章小结 16 3 K一均值聚类算法的研究 17 3.1 K-均值聚类算法介绍 17 3.1.1 K一均值聚类算法基本思想 17 3.1.2 K一均值聚类算法主要流程 17 3.2 K-均值聚类算法的主要缺陷及分析 18 3.3 本章小结 19 4 K-均值聚类算法的实验 20 4.1 实验结果分析 20 4.2 本章小结 25 5 总结与展望 26 5.1 总结 25 5.2 展望 26 参考文献 28 英文摘要、关键字 31 论文题目：数据挖掘K均值算法实现数学与信息科学学院计算机科学与技术专业指导教师：郭瑞强作者：郝蓓摘要：随着互联网技术的迅速发展，现在的人们每一天都会面临例如文本、图像、视频、音频等各种数据形式，这些数据的数据量的大小是很惊人的。怎样能够很快的并且高效地从这些大量数据中挖掘提炼出它所蕴含的价值，成为现在人们特别关注并且需要马上解决的问题。数据挖掘(Data Mining，DM)正是因为这个才慢慢诞生出来。数据挖掘经过一段时间的迅猛发展，诞生出了大量的理论结果和现实使用成果，它提供了许多工具和卓有成效的方法来解决问题。数据挖掘中有一项是很重要的研究领域，那就是聚类分析，这是一种对数据进行按照不同的依据将数据进行分组或者将数据进行划分的方式。聚类无论在生物科学研究，还是在商务贸易中、图像分析处理、网页内容分类等其他日常生活的领域都得到了很好的应用。根据使用的数据类型、使用的功能的不同、聚类需求的不同，目前的聚类算法大概有以下几种：基于划分的算法、基于层次的算法、基于密度的的算法、基于模型的算法以及基于网格的算法。在这之中，基于划分的K-均值聚类算法是目前研究最成熟传统经典的算法。K-均值算法的应用领域特别广泛，覆盖范围涉及语音频率压缩还有图像及文本聚类，另外在数据预处理和神经网络结构的任务分解等也发挥其重要用途。本文所做的工作有：本文第一部分：详细介绍了本次论文研究的背景和目的，以及所选题目的考虑思路，还有在当前国际形式下，聚类分析在国际上的地位及国内外研究成果综述，最后介绍了本论文算法实现的内容和论文整体布局安排。第二部分：首先详细描述了数据挖掘的来源发展还有它的概念定义，下面主要介绍聚类分析，包括聚类的基本概念原理等基础性知识，介绍了聚类算法的内部特性，详细描述了几种目前聚类分析的方法，总结比较各个方法的特点及其长短处。最后对本论文所研究的基于划分的聚类算法进一步讨论都有哪几种算法。第三部分：这是本论文的重点，本论文所要讨论的K-均值算法，从它的概念基本思想算法流程等方面对K-均值算法进行详细系统的介绍，并且详细分析了它的优缺点。K-均值算法对初始值的选取比较敏感和对数据的输入顺序不同也会影响聚类等问题，所以本文针对该问题进行了验证，通过实验证明了这两个因素对聚类结果会有哪些影响。实验表明，K-均值算法对初始值和数据输入顺序很敏感，但是这两个对聚类结果影响的方面不同。本文通过六个实验结果分析得出，改变初始点，对聚类结果的影响不大，只是会改变迭代次数，而且选取初始的连续的几个数据为初始点迭代次数最少，虽然中间间隔的几个数据作为初始点也出现了最小的迭代次数，但这对数据集来说有太多的不确定性，所以还是选择最开始那几个数据为数据聚类初始点；对于改变数据集的输入顺序，聚类结果与之前的有很大的改变，实验结果说明输入顺序不同既影响了聚类结果也影响了迭代次数。通过这些结论为以后用户使用K-均值算法提供了很好的帮助，也为该算法的改进提供了参考。关键词：数据挖掘