湖南科技大学软件生产实习报告.docxVIP

下载本文档

2
0
约7.63千字
约 13页
2023-11-22 发布于辽宁
举报
版权申诉

湖南科技大学软件生产实习报告.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

软件生产实习报告书聚类算法设计与实现学号：1005010214 姓名：朱志刚指导老师：朱自兰完成日期：2013年6月28日目录 TOC \o 1-5 \h \z 一、前言 3 \o Current Document 二、可行性研究 3 \o Current Document 三、需求分析 3 \o Current Document 3.1总体设计思想: 3 \o Current Document 3.2算法步骤 4 \o Current Document 四、系统设计与实现 5 \o Current Document 4.1系统架构 5 \o Current Document 4.2载入数据模块 5 \o Current Document 4.3随机选取K个点初始化聚类中心 9 \o Current Document 4.4计算类间距离并且把坐标点分好类 9 \o Current Document 4.5重新计算各个类的聚类中心 10 \o Current Document 4.6分析误差，结束程序 11 \o Current Document 五、综合测试 12 \o Current Document 六、总结 13 \o Current Document 七、参考文献 13 、前言聚类分析是数据数据挖掘领域中重要的研究课程，用于发现大规模数据集中未知的对象类。它广泛地应用于文本搜索、模式识别、人工智能、图像分析等领域。目前已经处在许多的聚类算法，比如基于划分的K-Means算法。K-Means算法是一种以平均值作为聚类中心的分割聚类方法，简单而且快捷。 :、可行性研究 1）工艺技术上：对于给定的一个包含n个二维数据集以及要生成的数据子集的数目K，K-Means聚类算法将数据对象组织为K个划分。每个划分代表一个类，每个类有一个类别中心。选取欧式距离作为相似和距离判断准则，计算该类内各点到聚类中心的距离平方和，聚类目标是使各类总的距离平方和最小。显然我们可以换一种思想分类的时候，分别计算所有数据集到K各点的距离最短而分类，用中心点的距离误差代替极限的无限逼近。 2）市场需求上：聚类分析是数据挖掘中的一个重要研究领域，K-Menas算法在对于学生学习成绩的分析、电信CRM客户分类有重要的作用。 3）经济效益上：这个算法在成本上非常少，只需要脑力成本，不需要过度的开销。三、需求分析 3.1总体设计思想： k-means算法接受输入量k ；然后将n个数据对象划分为k个聚类以便使得所获得的聚类满足：同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个中心对象”（引力中心）来进行计算的。下面是具体的需求算法： Al^orilliiti 411心1成4一 JH CEuhjsc k duki paints Ihc inilia] tcntriiJs( clusici ccnicr?. I repeat fiir Cticlj data pottiL x，_ D Jci coiiipme die JESEiuict (rom x【。eitcl\ ceiHruiJ- ussiLin x Lu [he close si ccnirtMd ll ccniroid reprcscms ii cluster endfur re-coinpLiic Lhc cciitniiJs uslh^ the current uluslcr nicnibcrship S uiiti] tlie flopping nicnui] n met 下面为具体的总体流程图: 3.2算法步骤 K-Means算法的步骤：选K个初始聚类中心，z1(1), z2(1)，…，zK(1),其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定，例如可选开始的K个模式样本的向量值作为初始聚类中心。逐个将需分类的模式样本｛x｝按最小距离准则分配给K个聚类中心中的某一个 zj(1)。假设i=j时，其中k为迭代运算的次序号，第一次迭代k=1，Sj表示第j个聚类，其聚类中心为zj。（3）计算各个聚类中心的新的向量值，zj（k+1）,j=1,2,…,K。求各聚类域中所包含样本的均值向量；其中Nj为第j个聚类域Sj中所包含的样本个数。以均值向量作为新的聚类中心，可使如下聚类准则函数最小：在这一步中要分别计算K个聚类中的样本均值向量，所以称之为K-均值算法。（4）若j=1,2,…,K，则返回第二步，将模式样本逐个重新分类，重复迭代运算；若，j=1,2,…，K，则算法收敛，计算结束。