基于下边界的邻域粗糙集特征选择方法.pdfVIP

  • 10
  • 0
  • 约9.36千字
  • 约 5页
  • 2018-05-09 发布于福建
  • 举报

基于下边界的邻域粗糙集特征选择方法.pdf

第25卷第5期 荆楚~2.r-学院学报 2010年 5月 V_01.25No.5 JournalofJingehuUniversityofTechnology May2010 基于下边界的邻域粗糙集特征选择方法 李 楠 (商洛学院计算机科学系,陕西 商洛 726000) [摘 要] 粗糙集理论能够有效地处理不完整、不确定和不精确的数据信息。文章在邻域粗糙集的基 础上,引入了下边界作为属性冗余性的判断条件。在全部特征的前提下删除某一特征后,根据样本集合的正 域变化情况来确定被删除特征的重要性,从而确定特征是否为冗余特征。文中所使用的数据集合来源于UCI 数据集。通过实验可以看出:这种方法可以从大量的特征中有效地选择出重要特征。 [关键词] 粗糙集;邻域;下边界;重要特征 [中图分类号] TP301.6 [文献标识码] A [文章编号] 1008—4657(2010)O5—0008—04 粗糙集理论从提出以来,得到了很大程度的发展,也出现了大量的改进方法。特征选择作为粗糙集 理论的核心内容之一,也得到了广泛的研究。本文在邻域粗糙集理论的基础上,对其特征选择方法进行 了一些改进。在邻域粗糙集进行特征选择的过程中,通过给空集中逐个加入单个特征,根据加入特征后 正域的变化情况来确定当前最重要的特征。而在本文中通过在全部特征中逐个去除特征,根据去除特征 后正域的变化情况来确定所去除的特征的重要性,从而删除特征集合中的冗余特征,最终得到重要特征 集合。 1 基础知识介绍 1.1 邻域粗糙集¨ 邻域粗糙集的主要思想是,根据某样本与在其指定半径内样本的类别一致性来计算正域样本集合。 假设信息系统 /S=(U,A),其中U表示论域,是一个非空有限的样本集合 {。,,…, },包含有儿 个样本。表示属性集合 {。,a:,……o},包含m个属性,Trt个属性值用来描述每一个样本的各个特征。 属性集合A可以分为属性集合C和属性集合D,其中c表示条件属性,D表示决策属性,信息系统 也 称为一个决策系统。 对于论域 U中的任意的一个样本 ,在特征子集B C中的邻域表示为 (),称为置 的 邻域, 定义为: ()={ ∈U,A ( ,) ),其中A ( ,)表示样本 。与 之间的距离,本文所使用 Ⅳ … 的距离为欧式距离,即:A (。,)=(∑l,(i,)~f(xj,仅)l)“,‘其中,OLk∈B c i,,表示 样本 的第 个属性的值,,v表示属性子集B中包含有 Ⅳ个属性。 根据以上的定义不难看出,邻域概念的提出更有利于数值属性近似程度的计算。6值的大小是影响 邻域的重要因素,当占值为0时,近邻关系也就成了等价关系。邻域粗糙集模型也就成了经典粗糙集模 型。 对于给定的信息系统 /S=(U,CuD),特征子集 c,样本集合 ,则 在子集 上的邻域 上近似和下近似分别定义如下: [收稿 日期]2010-02—14 [作者简介]李 楠 (1981一),女,陕西澄城人,商洛学院硕士研究生。研究方向:智能信息处理。 8 基于邻域的下近似:BX= { I6() X, E ); 基于邻域的上近似:BX= { 占()nx≠ , ∈u}o 对于决策信息表DT=(U,CUD),设 , , … ,表示决策属性D所确定的Ⅳ个决策类样本集 合,则决策D关于属性 的上下近似分别定义为:BD=uL+BXi和BD=UN㈦ 日置。决策D关于属性集 B的正域为POS(D)=BD。 1.2 下边界理论 对于 中的任意样本子集 ,关于屙陆子集B可以由两个集合来描述,即x的B上、下近似,记做: BX和BX,X的 边界为:BN(B)=BX—BX,X的 下边界为:△X=X—BX,X的 上边界为:△X= BX —X。 当在属性子集中依次增加或者删除一个属性时,U的子集 的边界和近似也渐进地更新。假设属性 n是属性集 中的一个属性,从属性集合B中删除属性 口后, 的下

文档评论(0)

1亿VIP精品文档

相关文档