数据挖掘与知识发现.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第6章 基于粗糙集(Rough Set)理论 的数据挖掘技术 粗糙集理论是由波兰华沙理工大学数学家Z.Pawlak于1982年提出的一种数据分 析理论,该理论在分类意义下定义了模糊性和不确定性两个概念。是一种处理不完 整数据、不精确知识的表达、学习、归纳等的一-种新型数学工具。 粗集理论的重要特点是:不需要任何附加信息或先验知识,直接从所需处理的 数据本身所提供的信息出发找出问题的内在规律。 目前,大多数数据挖掘工具软件(如:AQ系统、IDS系统等)都是基于集合论 开发的,其中粗糙集(RS)理论使用最广,也最布?开展前途。 由于RS是研究不精确和不确定知识的一种数据工具,如,知识的含糊性,主要 包括:①术语的模糊性,如高矮;②数据的不确定性,如噪声;③知识自身的不确 定性,如规那么的前后件间的依赖关系不完全可靠等。所以,它同其它不确定问题理 论,如,概率统计理论中的概率分布、模糊理论不能处理不完整数据且需提供隶属 函数这种先验知识、D-S证据理论中的基本概率赋值等相比,更具实用性。 粗集理论的主要思想:是在保持分类能力不变的前提下,通过知识约简,导出 问题的决策或分类规那么。 目前,RS理论已成功地应用于机器学习、过程控制、模式识别、数据挖掘、预 测、故障诊断、决策分析和人工神经网络等领域,成为其它不确定理论的一种补充, 有着不可替代的优越性。 ?核可解释为在知识约简时它是不能消去的知识特征集合。 【例如】设K = (U,R)是一个知识库,其中〃=区』,…,/),R = {R”,}, 且U / R、={{xpx4,x5},{x2,x8),{j;3},{x6,x7}) U/R2 ={{x1,x3,x5),{x6},{x2,x4,j:7,x8})U/% ={“],% },{“ 2,与,/},{工3,匕}} 那么得关系加4(R)的等价类为U /加d(R) = {{再,%5 }, {%2 ,“8 },{巧},{匕},{%},{%7 } } (注:u/〃h(r)是通过计算(u/与 nu/Qnu/6获得的)故由计算: u /ind(R-{Rx}) = {{x1,x5},{x2,x7,x8}Jx3},{x4},{x6})丰 U/indg(注:U/ind(R-{/?,))是通过计算U/R2C\U/R.获得的) 说明关系叫为R中必要的。 对于关系R?,有U/ind(R - {7?2}) = {{Xj ,x5}, {x2,x8}, {x3}, {x4}, {x6}, {x7}} = ind(R) 故R?是R中不必要的。 同理,也是R中不必要的,即有 U /ind(R - {}) = {{司,毛},{x2,x8),(x3},{x4 },{x6 },{x7)} = ind(R) 但U/R-{R2,Ry} = U/R] = {{x1,x4,x5),{x2,x8),{x3},{x6,x7}} wU/加d(R) 且有U /山d({ K, }) h U /加d(K), U1加d({^, })工 U / 〃以(R2) 所以,{R-R?}为独立的且为R的一个约简。同理,{叫,R-J也是独立的且为R的一 个约简。那么一个核core(R);{叫,与}。{叫,} = {RJ ?.知识的相对约简、相对核概念 令P和Q为U中的等价关系,Q的P正域记为R,Sp(Q),即PosP(Q) = U PX XeU/Q _所以,Q的P正域是U中所有根据分类U/P的信息可以准确地划分到关系Q的等 价类中去的对象集合。 令P和Q为等价关系族,RwP,如果尸%,/(p)(力以(Q)) = P%d(p.用的d(Q)) 那么称R为P中Q不必要的;否那么为必要的。为简单起见,用Rz%(Q)代替P3MP)a〃(Q))。 如果P中的每个R都为Q必要的,那么称P为Q独立的(或P相对于Q独立)。 设S q P ,S为P的Q约简当且仅当S是P的Q独立子族且Poss(Q) = R?Sp(Q)。 P的Q约简简称为相对约简。 P中所有Q必要的原始关系构成的集合称为P的Q的核。简称相对核,记为 coreQ(P). 定理:ceQ(P) = OedQ(P),其中/q(P)是所有P的Q约简构成的集合。 【例如】设K = (U,P)是一个知识库,其中。={和々,…,4},P = {R1,R2,R3},且 UIR、={{xpx3,x4,x5,x6,x7),{x2,x8)|U i R? ={区,七,工25},{12,16,工7,工8}} U/% ={{%1,工5,尢6},{々,加工8),{13,3} 那么由P导出的分类为U / 历d(P) = {{否,匕},(犬3,匕),{工2,工8 },{工6 },{与}} 假设等价关系Q有以下等价类: 。/(? = {口],与,4},*3,匕},{工2,工7 },■}}那么Q的P正域为

文档评论(0)

艺心论文信息咨询 + 关注
官方认证
文档贡献者

该用户很懒,什么也没介绍

认证主体成都艺心风尚电子商务有限公司
IP属地四川
统一社会信用代码/组织机构代码
91510100MA6CA54M2R

1亿VIP精品文档

相关文档