改进k均值算法在数据挖掘中的分析应用-analysis and application of improved k - means algorithm in data mining.docxVIP

下载本文档

4
0
约4万字
约 47页
2018-05-29 发布于上海
举报
版权申诉

改进k均值算法在数据挖掘中的分析应用-analysis and application of improved k - means algorithm in data mining.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

改进k均值算法在数据挖掘中的分析应用-analysis and application of improved k - means algorithm in data mining

第一章绪论随着社会经济和信息技术的飞速发展和普及，数据库应用的规模、范围急剧扩大，从私营企业到政府部门，医学、生物到军事、航天，各行各业积累的数据量成倍增加，人们面临着越来越多的数据类型，如文本、图像、视频以及音频数据，这些信息堆积如山，远远超出了人的理解和处理能力，然而这些数据背后隐藏着许多深层次的、未知的、潜在但又对人类有价值的信息，人们想要利用这些数据来做出理想的决策以及预测事物未来发展趋势，必需通过对现有的杂乱无章的数据做高层次分析，虽然目前所用的数据库系统可以高效、方便地完成数据的插入、查询、统计等功能，但是无法发现数据中存在的内在关系和隐含的信息，更无法从现有的浩海如烟的信息中提取有用的信息预测将来的发展趋势。面对“数据丰富，知识匮乏”的尴尬境地，数据挖掘技术应运而生，它以一种全新的概念改变了人类利用数据的方式，在各行各业的决策活动中扮演越来越重要的角色。1989年8月在美国底特律召开的第十一届国际人工智能联合会议的专题讨论会上首次提出“数据挖掘”这一术语[1]，经过二十几年的研究和实践，数据挖掘逐渐形成了独具特色的研究分支，包含了神经网络、统计分析、聚类等多种技术。聚类分析作为数据挖掘技术中的核心技术之一，是该领域非常重要的研究课题。聚类分析是在没有先验知识的情况下，仅靠数据间的相似性来对数据进行区分和分类的过程，是一种无监督的分类。它将数据对象分成为多个类，在同一个类中的对象之间具有较高的相似度，而不同类中的对象相似度较低。国内外学者对聚类分析的研究也充满了兴趣，IEEE的汇刊中，《PatternAnalysisandMachineIntelligence》、《FuzzySystems》、《NeuralNetworks》、《SignalProcessions》[2]等杂志中几乎每期都有讨论聚类分析问题的文章；此外，由IEEE和神经网络理事会共同主办的FUZZ-IEEE会议从1992年开始，每次至少有3到4个专题讨论模糊聚类分析的最新研究进展和发展现状。由于众多学者对这一领域的关注，聚类分析研究有了相当大的进展，至今，聚类分析的许多算法已经在数据挖掘领域中得到了广泛应用，例如K均值算法、BIRCH算法等。§1-1课题研究现状由于本文主要研究的是聚类分析中的K均值（K-Means，简称KM）算法在数据挖掘中的应用。下面分别介绍数据挖掘和K均值算法两个方面的研究现状。1-1-1数据挖掘研究现状数据挖掘最早在美国提出，经过发展已在各种领域中有着广泛应用，主要的应用可分为两个方向：一是财务、客户关系方面，这方面的数据很多，类型很复杂。二是以分子化学、基因工程、生物工程、药物学、毒物学、公共卫生管理等相关方面，这种组织的数据量大，包括大量的化学物质、大量的病例等大量的医学数据，数据同样是形式结构复杂，难以处理。通过对数据挖掘技术，在商务上，能帮助市场分析人员从客户基本信息库中发现不同的客户群，并且用购买模式来刻画不同的客户群的特征；在生物学上，聚类能用于推导植物和动物的分类，对基因进行分类，获得对种群中固有结构的认识等。与国外相比，国内对数据挖掘的研究稍晚，我国对数据挖掘的研究始于1993年，由国家自然科学基金对该领域的研究项目进行支持；随后几年，国内许多高校、科研院所和大公司也都相继投入了许多的人力物力来对数据挖掘进行开发性研究。目前，国内的许多科研单位和高等院校都已经开展数据挖掘的基础理论及其应用研究，其中北京系统工程研究所在知识发现中的应用更为关注，对模糊方法在数据挖掘中的应用进行了较深入的研究和分析；北京大学也在开展数据立方体代数的研究[1，3，7～9]；华中理工大学、复旦大学、浙江大学、中国科技大学、中科院数学研究所以及吉林大学等单位开展了对关联规则挖掘算法的优化和改造；南京大学、四川联合大学和上海交通大学等单位探讨、研究了非结构化数据的数据挖掘以及研触数据挖掘。1-1-2K均值算法改进研究K均值算法是聚类分析中的一种经典算法，它简单高效，但是仍有一些缺点，例如结果不稳定，对初始聚类中心敏感，输入参数难以确定，对聚类的数据形状有限制等。目前已经有许多对K均值的改进方法，通过查阅文献资料，对国内外近些年的改进K均值算法进行了整理，主要有以下几方面：基于密度蚂蚁思想的K均值算法[4]：蚂蚁算法是一种新的基于种群的模拟进化算法，K均值聚类、基于密度的聚类是常用的基于划分的聚类方法，基于密度蚂蚁思想的K均值算法是将蚂蚁算法、K均值算法、密度思想结合起来,利用蚂蚁算法的随机性来解决局部最优问题,并克服K均值算法初始参数的敏感性问题,提高了聚类的质量；再结合密度思想,使蚂蚁有选择地遍历，提高了算法效率,还解决了基于密度的算法不能发现任意形状聚类的问题。基于分层聚类的K均值算法[5]：将分层聚类和K均值聚类算法的优点相结合,首