- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
多粒度粗糙集模型中属性子集序列的构造方法.doc
多粒度粗糙集模型中属性子集序列的构造方法
摘 要:针对多粒度粗糙集模型中属性子集序列的构造问题, 提出一种基于属性间距离的构造方法。该方法首先引入信息系统中属性间距离的概念, 并给出距离的定量计算公式;然后根据公式来计算出各个属性之间的距离;最后根据属性之间距离的远近, 得到每个属性的邻域属性集, 从而构造出一个属性子集序列。实验结果表明, 与随机构造的属性子集序列相比, 该方法构造的序列对于实验的每个对象类具有更高的近似精度。因此, 采用所提方法构造出的属性子集序列, 其对应的多粒度粗糙集模型具有更好的近似效果。
关键词:多粒度;属性子集序列;距离函数;近似精度
中图分类号:TP18
文献标志码:A
文章编号:1001-9081(2016)11-2950-04
0 引言
粗糙集理论[1]是由波兰学者Pawlak于1982年提出的一种能够有效处理不精确和不确定信息的数学工具, 目前, 由于它在神经网络、数据挖掘、 决策分析、 机器学习和知识发现等领域[2-6]有着广泛的运用, 使得研究逐渐趋热。粗糙集理论是建立在分类机制的基础上, 通过等价关系将知识空间进行划分。其主要思想是保持分类能力不变的前提下,通过上、下近似去刻画知识不确定性程度,并且通过知识约简、规则提取去挖掘数据中潜在的信息, 粗糙集理论最大的特点就是不需要数据集之外的任何先验信息, 因此对于不确定信息进行分析处理还是比较客观的。近年来, 为了从多粒度、多层次的角度去处理和分析问题, Qian等[7-9]提出了多粒度粗糙集模型, 其主要思想是将属性集构建成一组属性子集序列, 通过这一系列属性子集来对论域进行划分, 构成了多粒度的论域空间, 然后在多粒度论域空间中对目标概念进行近似逼近。随后, 一些学者在Qian等基础上对多粒度粗糙集做了许多扩展和改进[10-13]。但是在多粒度粗糙集模型的研究中, 对于如何构建一个较好的属性子集序列, 目前并没有给出一个很好的方法。
本文针对多粒度粗糙集模型中关于属性子集序列的构建问题, 提出一种较好的构建方法, 其主要思想是引入统计学中关于变量间的相似系数来刻画属性间的距离[14-15], 通过属性间距离的远近来对属性进行区分归类, 进而构建一组属性子集序列。由于目前的多粒度粗糙集模型中分为基于等价关系的多粒度粗糙集模型和邻域多粒度粗糙集模型[12], 因此本文分别定义了符号型属性间的距离和数值型属性间的距离。最后通过实验分析, 验证了本文构建的属性子集序列具有更好的近似效果。
从定义8可以看出, 本文构造的多粒度属性子集序列是将属性之间距离较小的属性归类成一组, 由于数据集之间的差异, 这里无法给出具体的邻域半径取值, 但是通常可以取[0,0.5]。由于属性间的距离是根据统计学中变量之间相似系数[14]得来, 因此通过这种方法构造出的多粒度属性子集序列, 其每个属性子集内的属性之间依赖程度较高, 这样更具一定的合理性。最终构建的属性子集序列形成的是属性全集上的一个覆盖。为了验证本文构造的属性子集序列更为优越, 下面将通过实验来具体分析。
3 实验分析
为了验证本文方法性能,这里从UCI Machine Learning Repository获取了4个数据集进行实验分析和评估。具体信息描述如表2所示。
在表2中, 编号为1、3和4的数据集属性均为数值型属性, 编号为2的数据集属性为符号型属性。根据定义7中属性间距离的定义方式, 这里可以得出4个数据集属性间的距离矩阵, 其分别表示为:
对于数据集中的每个类, 分别计算出它们在构造的属性子集序列下多粒度粗糙集模型中的近似精度。为了作对比, 本实验另外随机构造了3个属性子集序列作为参照, 并且计算出每个类在各个参照序列下的近似精度。最终每个数据集的实验结果如图1所示。
由于数据集1、3和4属性均为数值型, 因此计算的为每个类在邻域多粒度粗糙集模型下的近似精度。
通过实验结果可以看出, 对于数据集中每个类, 本文方法构造出的属性子集序列(即实验序列)相对于随机生成的参照序列, 其近似精度均更高一点,因此, 本文方法构造出的属性子集序列在其多粒度粗糙集模型的近似方面具有一定的优越性。
4 结语
针对目前多粒度粗糙集模型中属性子集序列的构造问题, 本文通过引入属性间距离函数的方法, 定量地刻画了属性之间距离的远近, 并将距离较近的属性归为一类, 从而构造出一组多粒度属性子集序列。通过实例分析可以看出, 本文中构造出的属性子集序列在其近似对象的近似计算方面具有更高的精度。由于本文未给出属性邻域半径λ的选取方法, 因此在接下来的工作中需要探索如何去选取合适的属性邻域半径。
参考文献
文档评论(0)