基于多目标决策的聚类算法有效性评价x07drfgm.docVIP

  • 19
  • 0
  • 约2万字
  • 约 12页
  • 2018-09-11 发布于湖北
  • 举报

基于多目标决策的聚类算法有效性评价x07drfgm.doc

基于多目标决策的聚类算法有效性评价x07drfgm

基于多目标决策的聚类算法有效性评价 张勇, 彭怡, 李君 1. 电子科技大学经济与管理学院,四川,成都,610054 石勇 2. 中国科学院虚拟经济与数据科学研究中心,北京100190 3. 美国内布拉斯加大学信息科学与技术学院,奥马哈,NE 68182 摘 要:聚类结果有效性评价是聚类分析中的一个重要研究方向,同时也是制约着聚类分析发展的瓶颈问题之一。单一的聚类有效性评价函数存在针对性太强、普适性太弱的局限,如何准确地评价任意特征数据集的聚类结果质量,一直是困扰学界的难题。针对这一局限性,本文通过分析数据集结构属性特征、聚类算法和聚类有效性评价函数三者之间的相互关系,提出了一个基于多目标决策的聚类算法综合评价模型,同时,引入了专家支持系统以实现对模型的指导。模型根据聚类算法的外部有效性评价函数、相对有效性评价函数划分为两个层面,分别以获取数据集最优聚类算法和最优聚类数目为目标导向。最后,通过对两个UCI数据集的实验分析,结果显示本文所提出的模型具有广泛的适用性和很高的准确度,能够应用于诸如应急管理、信用风险和软件缺陷检测等领域的数据聚类分析问题中。 关键词:聚类分析,聚类评价,多目标决策,Promethee,决策支持系统 An Clustering Validity Model based on Multiple Criteria Decision Making School of Management and Economics, University of Electronic Science and Technology of China, Chengdu, P. R. China, 610054 Abstract: Clustering results validation is one of the major problems which restrict the development of clustering analysis. A single validation function which respects to the specific dataset has the limitations in general application and how to evaluate the clustering results of a dataset with arbitrarily features precisely still remains a challenge. In this paper, an integrated cluster validity model based on Multiple Criteria Decision Making has been proposed. According to the various cluster validity indices, the model lies in two levels with the goals of finding the optimal clustering algorithm and optimal cluster number respectively. Finally, an experiment on two UCI datasets has been conducted and the results show highly consistent with the real situation, so the model could be applied in comprehensive fields such as emergency management, credit risks assessment, software defect detection. Keywords: Clustering Analysis, Cluster Validity, Multiple Criteria Decision Making, Promethee, Decision Support System 资助项目:国家自然科学基金(7090101 资助项目:国家自然科学基金; 中央高校基本科研业务费专项资金 1 引言 在数据挖掘过程中,例如从基础数据中发现群组或识别有价值的分布和模式,聚类是最有用的任务之一。因此,聚类分析主要集中在揭示模式组成为“可见”群组,方便我们发掘其中的相似点和不同点,并从中得出有用的推论[1]。每个群组即为一个簇,簇内的对象具有尽可能大的相似性,不同簇之间的对象具有尽可能大的相异性。聚类分析既可以作为独立的数据挖掘工具,用来获知数据集的分布情况,分析其中的

文档评论(0)

1亿VIP精品文档

相关文档