分布式环境下聚类分析新方法研析.pdf

  1. 1、本文档共125页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
摘要 随着计算机和存储技术的快速发展,人们已经积累了大量的历史数据,迫 切需要将这些历史数据转化为知识。聚类分析,基于“物以类聚”的朴素思想, 将物理或抽象对象集合划分为由相似对象组成的多个类,在数据挖掘领域得到 了广泛的研究,并成功应用于各个领域。 近年来,数据库规模持续增长,分布范围日益广泛,而大多数现有聚类分 析方法需要一次性将所有数据载入内存,耗费大量计算时间,无法满足海量、 分布式数据环境下的知识提取需要,因此分布式环境下聚类分析方法的研究是 当今聚类分析领域富有挑战性的前沿课题。本论文致力于这一研究课题,以大 规模、分布存储的数据集为研究对象,采用机器学习、人工智能和层次优化等 技术和分布式计算相结合的方法,探索分布式环境下新的聚类技术,为高效、 合理利用分布的、大规模数据提供理论和技术基础。 本文的主要研究内容和创新点包括以下几个方面: 1.对分布式环境下的聚类分析,从产生背景、算法研究、应用研究等方面 进行了较为全面系统的分析和总结。 2.针对分布式聚类的易实现性问题,利用弱聚类算法的易实现性,提出了 一种基于Boosting技术的分布式聚类算法DBCA。DBCA算法在每次迭代中, 将不同子数据库基于弱聚类算法建立的局部模型组装生成全局模型,各子数据 库基于全局模型对其数据进行划分,再根据划分的质量确定下一次迭代的采样 概率,通过加权投票集成前些次迭代的划分.并将最后一次集成得到的划分作 为最后的聚类结果。分析表明DBCA算法具有可并行计算、良好的伸缩性和通 讯代价小等特点,不仅有助于科学家对聚类分析的深入研究,还有助于普通工 程技术人员利用分布式聚类技术来解决真实世界中的问题。实验表明DBCA算 法可得到与集中数据库相似的结果。 3.针对分布式聚类的集成伸缩性问题,根据数据库的网络分布、网络带宽 等特点,利用层次设计思想,对OIKIDDM模型进行扩展,提出了基于移动代 理的层次优化集成挖掘模型--HOIKIDDM模型,并相应提出一种分布式聚类 算法HOIKIDC。实验和分析表明,HOIKIDC对于分布式环境具有更好的伸缩 性,实现更加灵活,效率更高,并可有效降低通讯代价,特别适合于大规模异 构分布式数据聚类问题。 4.对分布式聚类的集成有效性问题进行研究。首先提出了集成有效性概念 和局部结果不一致性概念,分析了局部结果不一致性的产生原因,提出了协同 算法来降低这种不一致性,并相应地提出了一种分布式聚类算法CDCA,通过 n 局部站点之间的信息交互和协同使全局聚类质量得到改善。实验结果表明, CDCA算法使结果集成更为有效。 5.针对应用领域中的时间序列存在数据规模大且分布存储的特点,提出了 一种分布式模糊短时间序列聚类算法DFSTS来分析这些时间序列的形状相似 性从而更好的揭示序列的结构,并分析了该算法的收敛性。仿真结果表明DFSTS 算法具有良好的伸缩性,具有与集中数据集同样的聚类质量,计算效率更高。 6.以国家863计划项目为背景,以冶金生产过程质量预测与操作优化为研 究对象,对分布式聚类技术在冶金工业中的应用进行了研究。首先设计了一个 分布式数据挖掘系统原型。针对大规模、分布存储的连续退火生产过程数据, 应用本文提出的分布式聚类算法完成了两个挖掘任务:1)带钢断带建模与预报; 2)离群检测。实验结果表明,该方法对于连续退火过程数据的分析是有效的, 对大规模冶金工业生产过程数据分析具有十分广阔的应用前景。 关键词数据挖掘;聚类分析;分布式计算;分布式聚类;集成学习;移动代理; 层次优化;协同;时间序列 曹n工大掌■.j.掌位静支 m ABSTRACT Withthe of and is rapiddevelopment memorytechnologies,there computer interestin thcofi黜and indata duetothe growing clustering applicationsmining wide of amountsofdamandtheimminentneedfor

文档评论(0)

gubeiren_001 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档