- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
增量聚类ok
基于划分的批量增量式聚类算法
摘要:聚类分析是一种非常有用的数据挖掘方法,可用于发现隐藏在数据背后的分组和数据分布信息。目前已经提出了许多聚类算法及其变种,但在增量式聚类算法研究方面所做的工作较少。随着数据库中数据的不断增加,聚类结果也应该进行相应的更新。重新聚类不仅造成计算上的浪费,而且降低了算法的执行效率。本文在传统K-means聚类算法的基础上,提出并实现了一种基于划分的批量增量式聚类算法,有效地提高了聚类分析的效率。
关键词:数据挖掘;动态K-means聚类算法;增量式聚类算法
1、引言
几乎任何一个行业都有采集和存储相关数据的制度,这些数据从不同的角度不同程度地反映了该行业的信息。随着计算机技术的应用和普及,各行业中数据的采集、存储能力大大增强,而对数据的处理和分析能力相对不足。迫切需要一种有效的数据分析工具,数据挖掘应运而生,它能自动、智能和快速地发现大量数据间隐藏的依赖关系并从大量数据中抽取有用的信息或知识。
工业生产领域是数据挖掘应用最有潜力的应用领域之一。在工业生产领域,大部分工厂都积累了大量的实际生产数据,这些数据大多以数据库、数据文件、生产记录等形式存在,它们蕴涵了与生产设备、生产过程相关的许多规律性知识和生产决策、操作人员的操作决策和控制经验。由于缺乏必要的数据分析和处理工具,这些数据中的大部分闲置。数据挖掘在该领域的应用将使这些数据发挥出极为可观的作用。工业过程优化是应用工业生产数据挖掘的一个重要目标。[1]
本文主要讨论焦炉生产过程中对集气管压力的控制。集气管压力不稳定,将使整个炼焦系统混乱失调。并且由于配煤、装煤、出焦和煤气管道阻力不均匀等因素,也很容易造成集气管压力不稳定,因此控制集气管压力具有很重要的现实意义。
由文献[2]可知,集气管压力系统是一个非线性、时变的多变量系统,而且具有不可测的大干扰,很难建立起准确的数学模型。所以现在一般采用模型参数要求不高的模糊控制方案。其模糊控制规则(也就是知识库)的建立一般采用的都是在经验归纳法的基础上,根据控制规则的设计原则,依靠专家知识和操作人员的经验积累所得到的,然而对复杂的工业过程,往往难以总结出较完善的经验,也就难有完善的控制规则k-means算法虽然简单、快速和有效,但是其中的k值对领域知识依赖性大,如果一开始确定的分类个数不合适,这会影响聚类的最后结果。因此,在这里采用了文献[4]提出的一种动态k-means算法。
另外,文献[3]只是在原有数据集上进行聚类生成模糊控制规则,没有考虑对以后新增数据的处理,这就会造成规则库的不完善。因为新数据的增加会对聚类结果产生影响,进而会影响到规则库。规则库不更新就不能适应新情况的发生,做出错误的决策,所以保持聚类结果的更新,进而保持规则库的更新具有很重要的意义。
3、动态K-means算法的改进
动态K-means算法克服了传统划分方法要求事先给定聚类结果数、对初始划分和输入顺序敏感等缺陷,并能够获得比划分方法更好的聚类质量[4]。其中,聚类个数k是在聚类过程中根据类间距离的约束动态调整得到的。为了在本次聚类结果的基础上对新增数据继续处理,需要在本次聚类过程中存储一些参数。这些参数将以表的形式存储,表中包含的字段有:id(类的标识号)、numi(属于该类的对象个数)、m(1)、m(2)、…、m(w)(这几个字段表示该类的中心点各个属性的值,w为属性的个数)。具体步骤如下:
第1步:由用户给出两个常数:两个类合并的临界距离及计算密度所用半径d1,建立新的类中心的最小临界距离d2,应使d2dl。
第2步:确定大致分类个数k及初始类中心,并将这初始的k个类中心对象依次用数字1、2、3、…、k标识:
(1)以d1为半径,计算所有对象的密度;
(2)将对象按照密度从大到小排序;
(3)选取排序后的第一个对象作为第1个类中心;
(4)按密度从大到小,逐个引进其余n-1个对象,计算其与已有类中心的距离,如果最小距离不小于d2,则将其作为一个新的类中心,否则取下一个对象继续;
(5)按(4)操作,假设最终得到k个类中心,即初始的聚类结果数,若用户认可,则进入第3步,否则转到第1步,由用户重新输入d1,d2。达到用户认可的聚类数时,存储此时d1的值,作为判断下面类合并时的依据,并且作为后面将增加的数据聚类后融入聚类结果时是否有类合并的依据。
第3步:按距离最近原则,将其余n-k个对象逐个并进最近的类中心所代表的类,并将此对象用所属类的类中心的标识号进行标记。每并入一个对象,立即重新计算该类的中心,并以此中心代替原来的中心,再将此类所含的对象数加一,即numi=numi+1。记录各类的中心点,存入表中相应的字段,如果有变化,用新值将其覆盖。
第4步:计算各类之间的距离,如果最小距离小于d1,则将相应的两个类合并,然后重新计算
文档评论(0)