网站大量收购独家精品文档,联系QQ:2885784924

分布式环境下聚类分析新方法的研究控制科学与工程专业论文.docxVIP

分布式环境下聚类分析新方法的研究控制科学与工程专业论文.docx

  1. 1、本文档共124页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
分布式环境下聚类分析新方法的研究控制科学与工程专业论文

摘要随着计算机和存储技术的快速发展,人们已经积累了大量的历史数据,迫 摘要 随着计算机和存储技术的快速发展,人们已经积累了大量的历史数据,迫 切需要将这些历史数据转化为知识。聚类分析,基于“物以类聚”的朴素思想, 将物理或抽象对象集合划分为由相似对象组成的多个类,在数据挖掘领域得到 了广泛的研究,并成功应用于各个领域。 近年来,数据库规模持续增长,分布范围日益广泛,而大多数现有聚类分 析方法需要一次性将所有数据载入内存,耗费大量计算时间,无法满足海量、 分布式数据环境下的知识提取需要,因此分布式环境下聚类分析方法的研究是 当今聚类分析领域富有挑战性的前沿课题。本论文致力于这一研究课题,以大 规模、分布存储的数据集为研究对象,采用机器学习、人工智能和层次优化等 技术和分布式计算相结合的方法,探索分布式环境下新的聚类技术,为高效、 合理利用分布的、大规模数据提供理论和技术基础。 本文的主要研究内容和创新点包括以下几个方面: 1.对分布式环境下的聚类分析,从产生背景、算法研究、应用研究等方面 进行了较为全面系统的分析和总结。 2.针对分布式聚类的易实现性问题,利用弱聚类算法的易实现性,提出了 一种基于Boosting技术的分布式聚类算法DBCA。DBCA算法在每次迭代中, 将不同子数据库基于弱聚类算法建立的局部模型组装生成全局模型,各子数据 库基于全局模型对其数据进行划分,再根据划分的质量确定下一次迭代的采样 概率,通过加权投票集成前些次迭代的划分.并将最后一次集成得到的划分作 为最后的聚类结果。分析表明DBCA算法具有可并行计算、良好的伸缩性和通 讯代价小等特点,不仅有助于科学家对聚类分析的深入研究,还有助于普通工 程技术人员利用分布式聚类技术来解决真实世界中的问题。实验表明DBCA算 法可得到与集中数据库相似的结果。 3.针对分布式聚类的集成伸缩性问题,根据数据库的网络分布、网络带宽 等特点,利用层次设计思想,对OIKIDDM模型进行扩展,提出了基于移动代 理的层次优化集成挖掘模型--HOIKI DDM模型,并相应提出一种分布式聚类 算法HOIKIDC。实验和分析表明,HOIKIDC对于分布式环境具有更好的伸缩 性,实现更加灵活,效率更高,并可有效降低通讯代价,特别适合于大规模异 构分布式数据聚类问题。 4.对分布式聚类的集成有效性问题进行研究。首先提出了集成有效性概念 和局部结果不一致性概念,分析了局部结果不一致性的产生原因,提出了协同 算法来降低这种不一致性,并相应地提出了一种分布式聚类算法CDCA,通过 n局部站点之间的信息交互和协同使全局聚类质量得到改善。实验结果表明, n 局部站点之间的信息交互和协同使全局聚类质量得到改善。实验结果表明, CDCA算法使结果集成更为有效。 5.针对应用领域中的时间序列存在数据规模大且分布存储的特点,提出了 一种分布式模糊短时间序列聚类算法DFSTS来分析这些时间序列的形状相似 性从而更好的揭示序列的结构,并分析了该算法的收敛性。仿真结果表明DFSTS 算法具有良好的伸缩性,具有与集中数据集同样的聚类质量,计算效率更高。 6.以国家863计划项目为背景,以冶金生产过程质量预测与操作优化为研 究对象,对分布式聚类技术在冶金工业中的应用进行了研究。首先设计了一个 分布式数据挖掘系统原型。针对大规模、分布存储的连续退火生产过程数据, 应用本文提出的分布式聚类算法完成了两个挖掘任务:1)带钢断带建模与预报; 2)离群检测。实验结果表明,该方法对于连续退火过程数据的分析是有效的, 对大规模冶金工业生产过程数据分析具有十分广阔的应用前景。 关键词数据挖掘;聚类分析;分布式计算;分布式聚类;集成学习;移动代理; 层次优化;协同;时间序列 曹n工大掌■.j.掌位静支 曹n工大掌■.j.掌位静支 m ABSTRACT With the rapid development of computer and memory technologies,there is growing interest in clustering thcofi黜and applications in data mining due to the wide availability of huge amounts of dam and the imminent need for turning such data into useful information and knowledge.Cluster analysis is,based on the naive idea-things of one kind come together,a division of data into groups of similar objec

您可能关注的文档

文档评论(0)

131****9843 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档