基于收益风险优化属性约简的聚类分析研究-计算机应用技术专业论文.docxVIP

  • 3
  • 0
  • 约5.29万字
  • 约 51页
  • 2019-03-30 发布于上海
  • 举报

基于收益风险优化属性约简的聚类分析研究-计算机应用技术专业论文.docx

上海海 上海海洋大学硕士学位论文 万方数据 万方数据 上海海洋大学硕士学位论文 答辩委员会成员名单 姓名 工作单位 职称 备注 刘广钟 上海海事大学 教授 主席 陈明 上海海洋大学 教授 委员 袁红春 上海海洋大学 教授 委员 郑永德 上海海洋大学 助教 秘书 答辩地点 信息学院 306 答辩日期 2014 年 6 月 3 日 基于收益风险优化属性约简的聚类分析研究 摘 要 粗糙集是由 Z. Pawlak 教授提出的一种处理不协调、不确定和不精确数据的数 学工具,通过知识约简在保持等价关系的基础上可以产生决策或分类规则,已广 泛应用到知识获取、决策分析、智能控制、模式识别、机器学习和数据挖掘等领 域。决策表属性约简理论是粗糙集的重要组成部分,通常情况下,属性约简可以 理解为是在保证不影响信息系统分类能力的情况下,通过删除其中一些冗余的属 性和属性值,即用尽可能少的属性表示原有的知识。如何获得快速有效的属性约 简算法已成为知识约简领域的一个重要研究内容。 聚类又称为无监督分类,能够识别数据的内在结构,目前已被广泛应用于各 种数据分析场合,包括计算机视觉分析、统计分析、图像处理、医疗信息处理、 生物科学、社会科学和心理科学等。很多聚类分析方法都需要事先给出聚类所需 的一些参数,譬如聚类的数目、聚类的中心点和需要迭代的次数等。若事先无法 获取这些相关的知识和经验,这些聚类分析算法往往是不可行的。因此,研究一 种不需要先验知识、人为因素干扰性小、聚类结果较为准备的聚类算法具有现实 的研究意义。 本文首先从粗糙集的基本理论入手,介绍了知识约简的启发式约简算法,之 后给出了风险最小化的贝叶斯决策和三枝决策粗糙集的基本理论,并延伸到对三 枝决策粗糙集正域约简算法的研究。其次,提出了基于风险收益优化的属性约简 概念和相应的算法。再次,在基于风险收益优化属性约简的基础上探讨了针对面 向信息系统的聚类分析的算法。本文主要研究属性约简和聚类分析算法,具体有 以下几方面的内容: 1)针对经典粗糙集理论和相关知识约简领域方面的研究,本文首先引入了粗 糙集和知识约简的相关概念和定义,然后列举了基于属性重要度的属性约简算法, 该算法可以很好地应用于噪音较低的信息系统中。 2)针对经典粗糙集属性约简的不足,即在实际应用中由于噪声的存在,通常 很难做到误分类率为零的精确分类,将正域定义为完全包含于目标概念的等价类 过于严格,缺乏对误分类的容忍能力。本文介绍了风险最小化的贝叶斯决策和决 策粗糙集模型,并在此基础上提出了基于决策粗糙集模型的正域约简并给出相关 I 的约简算法。 3)在工农业生产、经济活动和社会生活中,决策者总是希望获得的收益最大 而承担的风险最小,但是这是一种理想的期望,一般不可能实现的。因此,如何 平衡或兼顾两者,寻找切实可行的约简是决策过程中的一个重要问题,通过属性 约简可以在海量的、复杂数据中挖掘其中隐藏的属性间关联,从而简化数据模型 并提高其系统模型的仿真精度。本文在一定的预期收益水平下通过组合优化收益 和风险,建立了收益和风险平衡组合的决策模型,并给出了该模型属性约简的启 发式搜索算法。该算法以每个属性的收益风险平衡组合函数作为指标进行启发式 属性约简,实例分析和实验表明基于收益和风险优化的约简算法可以缩少数据模 型的规模和复杂度,便于进行模型系统的计算机仿真,具有较强的实用性和经济 价值。 4)针对传统的聚类分析方法需要给出先验知识的局限性,本文提出了一种基 于收益风险优化属性约简的聚类分析方法,首先利用面向粗糙集信息系统的聚类 算法框架得到一个小粒度的聚类结果;然后提出基于收益风险优化属性约简的聚 类算法,该算法使用收益风险优化的函数来指导合并过程,采用凝聚的形式得到 一个合适的聚类结果,并对聚类过程进行评估,直到满足聚类算法的终止条件; 最后,实例分析和实验表明该聚类算法是有效的。 总之,本文针对粗糙集的属性约简、决策粗糙集的正域约简、收益风险优化 的约简及其在聚类分析中的应用这几个研究领域,提出了一些相关的属性约简和 聚类方法,进一步丰富了属性约简和聚类分析理论。 关键字:粗糙集,属性约简,决策,风险,收益,聚类分析 II Clustering Analysis of Attribute Reduction on Balance of Profit and Risk ABSTRACT Rough set is an important mathematical tool to process inconsistent, incomplete and inaccurate information, which proposed by Professor Z. Pawlak. It can produce decision or cl

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档