数据挖掘与知识发现(讲稿---粗糙集挖掘技术).doc

数据挖掘与知识发现(讲稿---粗糙集挖掘技术).doc

  1. 1、本文档共121页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘与知识发现(讲稿---粗糙集挖掘技术).doc

第6章 基于粗糙集(Rough Set)理论的数据挖掘技术 粗糙集理论是由波兰华沙理工大学数学家Z.Pawlak于1982年提出的一种数据分析理论,该理论在分类意义下定义了模糊性和不确定性两个概念。是一种处理不完整数据、不精确知识的表达、学习、归纳等的一种新型数学工具。 粗集理论的重要特点是:不需要任何附加信息或先验知识,直接从所需处理的数据本身所提供的信息出发找出问题的内在规律。 目前,大多数数据挖掘工具软件(如:AQ系统、IDS系统等)都是基于集合论开发的,其中粗糙集(RS)理论使用最广,也最有发展前途。 由于RS是研究不精确和不确定知识的一种数据工具,如,知识的含糊性,主要包括:①术语的模糊性,如高矮;②数据的不确定性,如噪声;③知识自身的不确定性,如规则的前后件间的依赖关系不完全可靠等。所以,它同其它不确定问题理论,如,概率统计理论中的概率分布、模糊理论不能处理不完整数据且需提供隶属函数这种先验知识、D-S证据理论中的基本概率赋值等相比,更具实用性。 粗集理论的主要思想:是在保持分类能力不变的前提下,通过知识约简,导出问题的决策或分类规则。 目前,RS理论已成功地应用于机器学习、过程控制、模式识别、数据挖掘、预测、故障诊断、决策分析和人工神经网络等领域,成为其它不确定理论的一种补充,有着不可替代的优越性。 1. 粗糙集理论的基本概念 (1) 知识和知识库 设为论域,任何子集,称为中的一个概念或范畴。规定空集也是一个概念。中的一个概念族称为关于的抽象知识,简称知识。 这里,主要对上能形成划分的那些知识感兴趣。 一个划分F定义为:F,其中, (显然,一个划分就是一条知识) 上的一族划分称为关于的一个知识库(knowledge base)。 设是上的一个等价关系,表示R的所有等价类构成的集合,即。表示包含元素的R等价类。 【例如】考虑一组儿童的集合,A={(张,9),(王,9),(李,9),(赵,9),(刘,7),(洪,7),(梁,7),(黄,5),(陈,5),(段,8)}。则具有“相同年龄”关系的等价类如下: ={(张,9),(王,9),(李,9),(赵,9)} ={(刘,7),(洪,7),(梁,7)} ={(黄,5),(陈,5)} ={(段,8)} 即 一个知识库就是一个关系系统,R是上的一族等价关系。 若等价关系族,且,则也是一个等价关系(即P中所有等价关系的交集),称为P上的不可区分关系(indiscernibility),记为ind(P),且有 (1) 则表示与等价关系族P相关的知识,称为K中关于的P基本知识(P基本集)。为简单起见,用代替。不可分辩关系概念是RS理论的基础,它揭示出论域知识的颗粒状结构。 的等价类称为知识P的基本概念或基本范畴。 特别的,如果,则称为K中关于的初等知识。的等价类为知识R的初等概念或初等范畴。 当为一知识库,定义为K中所有等价关系的族,记作 (说明K是由所有基本知识组成的集合) 【例如】一玩具积木的知识表达系统 论域,如果根据某一属性描述这些积木情况,就可按颜色、形状和体积分类。换言之,可以定义三个等价关系(即属性):颜色、形状、体积。 按分:---红;---蓝;---黄 按分:---圆;---方;---三角型 按分:---大;---小。 由此得三个等价类: 这三个等价类均是由知识库中的初等概念(初等范畴)构成的。它的基本范畴是初等范畴的交集构成的,如 ------红色三角形 ------蓝色方形 ------黄色三角形 上面是的基本范畴。 ------红色大三角形 这是的基本范畴。 ----红色或蓝色,为的范畴。 注:(1)有些范畴在这个知识库是无法得到的,如 ---说明知识库中不存在蓝色圆形,为空范畴。 ---说明知识库中不存在红色方形,为空范畴。 (2)上例容易求出、、和 =={} =={} =={} =={} (3)若一个知识系统,,给定一个等价关系簇,且有下列等价类: 试求:,,, 《自己思考》 定义: 设和为两个知识库,若,即,则称和(P和Q)是等价的,记作()。(说明和有同样的基本范畴) 设和为两个知识库,当时,称知识P(知识库)比知识Q(知识库)更精细,或Q比P更粗糙。当P比Q更精细时,也称P为Q的特

您可能关注的文档

文档评论(0)

zhangningclb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档