K—means算法在大学生消费状况分析中应用.docVIP

下载本文档

25
0
约4.06千字
约 9页
2018-06-20 发布于福建
举报
版权申诉

K—means算法在大学生消费状况分析中应用.doc

此“医疗卫生”领域文档为创作者个人分享资料，不作为权威性指导和指引，仅供参考

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

K—means算法在大学生消费状况分析中应用

K—means算法在大学生消费状况分析中应用　　摘要：以运城学院在校大学生为例，对其消费情况进行了抽样调查，并利用K-means算法对调查结果进行了聚类和分析。实验结果表明，每一类学生中影响其消费的因素是有差别的，该分析结果可作为指导各类学生消费的依据。　　关键词：数据挖掘；聚类分析； K-means算法；消费调查　　中图分类号：TP311 文献标志码：A 文章编号：1006-8228（2013）02-19-03 　　Application of K-means algorithm in the analysis of consumption status of undergraduates 　　He Yuzhen， Ren Yaopeng 　　（Department of Computer Science and technology， Yuncheng University， Yuncheng， Shanxi 044000， China）　　Abstract： The consumption of undergraduate students in Yuncheng University is investigated in this paper， and the K-means algorithm is used in the survey to carry out clustering analysis. The results show that the factors affecting consumption in each cluster of students are different. The analysis result may serve as a basic guidance of all kinds of students consumption. 　　Key words： data mining； clustering analysis； K-means algorithm 　　0 引言　　正确引导大学生消费是高校素质教育不可忽视的一项重要内容。影响学生消费的因素很多，因此需要进行综合分析，传统分析大部分采用统计分析的手段，得到均值、方差等一些简单的分析结果[1，2]。其实，还有一些潜在的因素，需要进一步分析，从而得出结论，为学生提供合理的消费意见与建议。许多信息无法从传统的学生消费分析方法中获得，而可以通过从20世纪90年代中期兴起的数据挖掘技术获得，进而找到影响学生消费的真实原因，制定相应措施，改善学生不合理的消费状况。　　数据挖掘（Data Mining），就是从大量的、不完全的、模糊的、有噪声的、随机的数据中，提取隐含在其中的人们事先不知的，但又是潜在有用的信息和知识的过程。而聚类分析（Clustering Analysis）是数据挖掘的一种技术，它的输入是一组未标定的记录，此时输入的记录还没有被进行任何分类，其目的是根据一定的规则，合理划分记录集合，是研究“物以类聚”问题的一种多元统计方法。聚类分析实质是一种建立分类的方法，它能够将一批样本数据（或变量）按照它们???性质上的亲疏程度在没有先验知识的情况下自动进行分类，有效克服了过去人们主要靠经验和专业知识做定性分类而带有的主观性和任意性，特别是对于多因素、多指标的分类问题，定性分类更难以客观准确分类。本文对学生的消费分类就采用了聚类分析中的K-means算法。　　1 K-means算法简介　　1.1 K-means算法思想　　K-means算法是J.B.MacQueen在1967年提出的，是聚类方法中一个基本的划分方法，也是目前诸多聚类算法中极有影响的一种技术。K-均值算法以k为参数，把N个对象分为k个簇，以使簇内具有较高的相似度。相似度的计算根据一个簇中对象的平均值来进行[3]。　　首先随机地选择K个对象，每个对象初始地代表了一个簇的平均值或中心。对剩余的每个对象根据其与各个簇中心的距离，将它赋给最近的簇。然后重新计算每个簇的平均值。这个过程不断重复，直到准则函数收敛。　　K-means算法的准则函数定义为：　　E是数据文件中所有对象的平方误差的总和。其中k是初始聚类中心个数，x是空间中的点，表示给定的数据对象，xi是簇Ci的平均值[4]。　　1.2 K-means算法流程和操作步骤　　K-means算法流程为：　　⑴ 输入：簇的数目k和包含n个数据文件。　　⑵ 输出：k个簇，使平方误差准则最小。　　操作步骤：　　⑴ 为每个聚类确定一个初始聚类中心，这样就有K个初始聚类中心。　　⑵ 将样本集中的样本按最小距离原则分配到最邻近聚类。