一种属性约简新方法.docVIP

  • 16
  • 0
  • 约3.12千字
  • 约 5页
  • 2016-11-23 发布于北京
  • 举报
一种属性约简新方法.doc

一种属性约简新方法   摘要:总结了粗糙集用于属性约简过程中的优缺点;为了弥补粗糙集的缺陷,构建了一套简便的属性约简新方法,即修边法;修边法类似于粗糙集,但它通过人为假设将粗糙集转化为精确集,模拟二者之间的误差率,将这种误差度与决策表的条件属性重要度等价起来;揭示了修边法中属性权重的用途和意义;通过数据实例运算对比两种方法,展现了修边法的优势;通过加入容错阈值,提高属性约简的鲁棒性。   关键词:数据挖掘;属性约简;粗糙集;修边法;属性重要度   中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2013)17-4087-04   在数据挖掘领域,存在多种不同目的和不同方式的数据预处理方法,其中属性约简[1]是一项极其重要的数据预处理任务。在原始数据集内,往往包含成百上千的属性,但很多属性可能与挖掘任务本身无关或冗余[2],人们需要花费大量的时间和精力来挑选参与建模的属性。尤其当数据内涵不明晰时,无论是忽略有用属性还是错选无用属性,都将影响到最终挖掘结果的正确性、有效性和算法效率。   属性约简,就是通过消除冗余属性和无关属性来缩小数据集规模,并保持和原数据集的概率分布基本一致,同时使得挖掘结果更易于理解。简言之,属性约简的基本作用是:降低属性空间维度;提高挖掘效率;提高分类准确率;提高结果可读性。[3]   1 粗糙集属性约简法的优缺点总结   针对高维数据集的属性约简,目前多数有效方法都是基于粗糙集的。粗糙集[3]是适合处理不确定性、不完整性和不精确性问题的数学理论,最初由波兰数学家Zdzis?aw Pawlak于1982年提出。该理论建立在分类机制基础上,将知识理解为对数据集的划分。   1.1 粗糙集的优点   粗糙集利用数据本身提供的信息,无须先验知识。粗糙集引入上、下近似和边界域等概念来刻画知识的不确定性,并且边界域中不确定元素数目是可计算的。粗糙集能处理不完备信息;能在保留关键信息的前提下对数据进行化简并求得知识的最小表达;能评估数据属性之间的依赖关系,揭示简单模式;能从经验数据中获取规则知识。[3]   1.2 粗糙集的缺点   实际应用中,粗糙集对象间的等价关系条件过分严苛,加之数据集里存在噪声、残缺和歧义数据,都会造成知识的遗漏或偏差。如下例:在数据集U中,E是条件属性集C上的等价类,含有10000个对象;F是决策属性集D上的等价类。基于一般的粗糙集模式,E属于F的边界域[4],不能对F做出肯定的推断,然而E中可能仅有一个对象不属于F,这也许是由于噪声导致的。该例反映出一般的粗糙集模式对噪声非常敏感[3]。而在现实应用中,数据集中有各类异常数据不可避免,因此一般的粗糙集模式在一定程度上限制了粗糙集的应用。   2 修边法介绍   2.1 修边法概述   修边法是在粗糙集基础上建立的一套改进的属性约简方法,其基本功能是在决策表中求取更准确、更有意义的属性重要度,它可以弥补粗糙集方法的缺陷,但又不丧失粗糙集的原有优势。本节论述的理论基础,请读者参阅文献[4-6]。   定义1:修边法的粗糙集定义   通过人为假设,将粗糙集中的边界域视为完全可定义的,即假设边界域中每个对象都明确属于某个划分,从而消除边界域,将粗糙集转化为精确集;然后再将假设后的精确集信息与粗糙集实际信息进行对比,求得二者之间的误差率。该误差率可取代粗糙隶属度,用于量化表示粗糙集的“粗糙度”。   定义2:修边法在决策表中的定义   通过人为假设,将决策表中的冲突域视为完全一致的,即假设冲突域中每个对象都明确属于某个决策类别,从而消除冲突,将冲突性决策表转化为一致性决策表;然后再将假设后的决策表信息与原决策表实际信息进行对比,求得二者之间的误差率。该误差率代表所缺失的条件属性的重要度。此定义可用于计算各项条件属性重要度。   修边法与普通粗糙集方法所求得的属性重要度存在偏差,前者保留了后者遗漏的部分信息,因此前者可以求得更准确的属性重要度。二者的计算成本在同一水平上。   2.2 修边法原理和步骤   1)边界域隶属度计算   2)修边假设和修边误差   4 结束语   修边法是一种简便易操作的属性约简方法,它可以充分发挥普通粗糙集属性约简算法的优势,同时避免部分缺陷。   当然,修边法也不可能解决高维属性约简时的NP难题[7]。在高维约简问题中,修边法可以作为初步处理的手段,首先明确选出属性集中所有的核属性及其相应的属性重要度,然后在非核属性集合中再采用例如基于可辨识矩阵法[8]的启发式方法进一步作约简处理,这样往往可以起到事半功倍的作用。因为对于非完备数据集或包含冲突的决策表来说,如果直接采用可辨识矩阵进行属性约简,通常会导致严重错误的结论,可辨识矩阵对于决策表中某

文档评论(0)

1亿VIP精品文档

相关文档