基于Minkowski距离一致聚类改进算法及应用研究.docVIP

下载本文档

4
0
约6.6千字
约 13页
2018-08-28 发布于福建
举报
版权申诉

基于Minkowski距离一致聚类改进算法及应用研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Minkowski距离一致聚类改进算法及应用研究

基于Minkowski距离一致聚类改进算法及应用研究　　摘要：针对一致聚类算法中聚类数目判断不准确、聚类速度慢等问题，通过集成复杂网络中的Newman贪婪算法与谱聚类算法，提出了一种新的基于Minkowski距离的一致聚类算法。该算法利用Minkowski距离刻画样本间的相似度，根据随机游走策略，结合不同数据的特征值分布分析方法进行聚类，实现聚类数目的自动识别。实验仿真说明算法具有较少的运算时间及较高的聚类精度。结合实际铜矿泡沫浮选过程特点，将该算法应用于浮选工况分类，进一步验证了算法的有效性。　　关键词：一致聚类；Minkowski距离；一致矩阵；聚类数目；工况识别　　中图分类号：TP273 文献标识码：A 　　聚类分析作为一种有效的数据处理方法，在复杂工业工程中得到了广泛关注。近年来涌现出了多种聚类分析方法，包括层次聚类算法、划分式聚类算法（如K-modes-Huang算法等）、基于网格和密度的聚类算法（如网格密度等值线聚类算法、基于移位网格概念的密度和网格的聚类算法SGCE）等。这些聚类方法在多个领域得到广泛应用，其理论也得到不断的丰富和发展。　　但是对不同结构特征的数据进行聚类分析时，现有的聚类方法遇到了难题，如相似度矩阵的选取问题、聚类数目的自动确定等。而一致聚类方法的提出，成为解决聚类问题的一种重要分析方法。该方法也称作聚类集成或划分算法，即针对某一特定的数据获得多种数目的不同聚类结果，并从中选取最能反映聚类信息的类别。在确定聚类数目方面，一致聚类方法具有特色，并为基因微阵数据、文本数据等聚类问题的解决提供了很好的思路。由于聚类过程中聚类数目的判断标准不尽相同，适用的领域也不同，其中最具有代表性的两种一致聚类方法是结合重采样或交叉验证等技术的一致聚类方法和基于迭代的一致聚类方法。但这两种一致聚类算法也存在聚类数目识别不准确等问题，主要是源于其重采样方法中最优的采样次数及迭代方法中的迭代次数不能有效且最优设定。　　本文提出了一种新的基于Minkowski距离的一致聚类分析方法，充分利用数据特征分布特点，自动识别聚类的数目，从而解决一致聚类中数目不能自动设定的问题。通过Minkowski距离优化调节一致矩阵参数，能够在不同的度量下获得有效的聚类结果，且由于算法本身机制集成了多种聚类算法，该法还具备一定的鲁棒性。仿真结果表明本文算法在聚类数目的确定精度和准确度上优于其他一致聚类算法。　　当前铜矿泡沫浮选过程生产环境恶劣且长期依靠人工肉眼现场监测，受到工人主观经验影响，易导致浮选工况操作波动异常，引起浮选药剂等资源和能源的浪费。随着计算机技术、图像处理技术、智能控制等领域的迅速发展，机器视觉技术在矿物泡沫浮选领域得到越来越广泛的应用，为浮选生产过程提供丰富的实时监控信息。　　通过视觉图像系统及液位、压力等工艺参数传感器测量，浮选生产现场积累了大量反映矿物生产状态的泡沫图像数据和生产操作信息，如何有效地分析和利用这些数据对浮选过程工况的分类、识别及过程调控具有重要意义。为此，本文提出了基于Minkowski距离的一致聚类分析方法，并应用到铜矿泡沫浮选过程工况的判别，取得了较好的聚类效果，有助于实现生产实时工况的自动判别。　　1 一致聚类方法　　常规聚类分析过程中，由于单一的聚类算法无法获得对所有数据的最优聚类结果，融合多种聚类算法的一致聚类方法引起研究人员的关注。一致聚类具体算法流程如图1所示。　　利用聚类算法集成的一致聚类方法的出发点主要通过进行多次采样或结合多种聚类算法对数据进行分析，获得反映数据类别信息的一致矩阵，从而进行数据的划分。一致聚类算法已在基因数据分析及文本聚类分析等应用中取得了较好的效果。当前一致聚类主要有两类算法：基于重采样的一致聚类方法和基于迭代的一致聚类分析方法。　　1.1 基于重采样的一致聚类方法　　基于重采样的一致聚类算法输入样本数据为D={e1，e2，…，eN}，聚类方法采用谱聚类方法，一般把重采样分段采样比例设为80%，采样次数为H，聚类数目集合为K={k1，k2，…，kj}（j=length（K），即设定聚类数目序列长度），输出为聚类数目集合D，一致矩阵为M。基于重采样的一致聚类算法流程如下所示：　　结合重采样或交叉验证等技术来模拟原始数据的扰动，该法是通过多次运行某一聚类算法（例如随机选取起始点的K-means或基于模型的贝叶斯聚类方法等）来获得类别稳定性，提供了一种可视化的途径来观察类别数目、类别成员以及类别边界等信息。　　大量实验表明，尽管该方法适合基因表达数据的聚类，但对其他类别聚类效果不佳，其原因为：重采样随机采样大部分样本，采样次数以及采样比例对算法影响大；基于重采样的一致聚类分析方法中确定聚类数目的准则不统一，算法中△