数据挖掘K-均值算法实现.docVIP

下载本文档

18
0
约1.88万字
约 18页
2017-09-17 发布于广东
举报
版权申诉

数据挖掘K-均值算法实现.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

本科生毕业论文（设计）册学　　院：数学与信息科学学院专　　业：计算机科学与技术班　　级： 2009级计算机班学　　生：郝蓓指导教师：郭瑞强河北师范大学本科毕业论文（设计）任务书论文（设计）题目：数据挖掘K-均值算法实现学院：数学与信息科学学院专业：计算机科学与技术班级： 2009级计算机班学生姓名：郝蓓学号： 2009010915 指导教师：郭瑞强职称：副教授 1、论文（设计）研究目标及主要任务本文主要研究聚类分析K-均值算法，并对该算法的优缺点进行分析，并通过该算法的缺点通过实验验证，这些敏感的因素对聚类结果具有哪些影响。本文的主要任务是实现K-均值算法，并通过改变不同的初始条件得出算法聚类结果，并对结果进行比对，得出结论。 2、论文（设计）的主要内容本文主要介绍了聚类分析，包括它各个方面的性能指标测量函数和常见的聚类方法，着重介绍了基于划分的聚类算法中的K-均值算法，详细分析了该算法的基本思想，算法流程和算法本身的特点，并通过实验实现了该算法，在实现该算法的基础上，对影响聚类结果的两方面因素初始点和数据输入顺序的不同分别进行实验。 3、论文（设计）的基础条件及研究路线本文是在C++的基础上实现的K-均值算法，数据集是从数据堂下载的c-fat500-10.txt数据集，在运行实现该算法的基础上，改变初始点和数据输入顺序，进行了六次试验，分别进行实验这两个初始条件的不同会对聚类结果有哪些影响。 4、主要参考文献 [1] T Zhang．R．Ramakrishnan and M．ogihara．An efficient data clustering method for very largedatabases．In Pror．1996 ACM-SlGMOD hat．Conf．Management of Data，Montreal。Canada，June 1996：103．114. [2]Sambasivam S，Theodosopoulos N．Advanced data clustering methods ofmining web documents．Issues in Informing Science and Information Technology，2006，8(3)：563．579. [3] Z．Huang．Extensions to the K-means algorithm for clustering large data sets with categorical values．Data Mining and Knowledge discovery,1998，(2)：283-304. Applied Math，1999，90：3—26．阶段起止日期 1 确定题目 2012年12月——2013年01月 2 查阅资料 2013年01月——2013年02月 3 论文撰写 2013年02月——2013年04月 4 论文修改 2013年04月——2013年05月 5 论文答辩 2013年05月指导教师: 年月日教研室主任: 年月日河北师范大学本科生毕业论文（设计）开题报告书数学与信息科学学院计算机科学与技术专业 2013 届学生姓名郝蓓论文（设计）题目数据挖掘K-均值算法实现指导教师郭瑞强专业职称副教授所属教研室软件研究方向数据库课题论证：本文主要是实现K-均值算法，在实现K-均值算法的基础上，对影响聚类结果的初始值选取问题和数据输入顺序的不同，分别通过实验进行验证，并从实验结果得出一般选取数据集开始的几个连续数作为初始中心，有助于提高聚类结果的迭代次数，适当的改变数据的输入顺序也可以改变聚类结果和迭代次数的结论，这些结论可以为我们改变聚类效率提供参考。方案设计：本文主要是用C++语言实现K-均值算法，在实现的基础上，并改变初始簇中心点和数据集的输入顺序的方式，分别实现出不同的结果，并对这些聚类结果进行分析，得出本文需要验证的结论。进度计划： 1.确定题目：2012年12月——2013年01月； 2.查阅资料：2013年01月——201