数据挖掘与知识发现.docxVIP

下载本文档

5
0
约1.02万字
约 17页
2022-09-25 发布于四川
举报
版权申诉

数据挖掘与知识发现.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第6章基于粗糙集（Rough Set）理论的数据挖掘技术粗糙集理论是由波兰华沙理工大学数学家Z.Pawlak于1982年提出的一种数据分析理论，该理论在分类意义下定义了模糊性和不确定性两个概念。是一种处理不完整数据、不精确知识的表达、学习、归纳等的一-种新型数学工具。粗集理论的重要特点是：不需要任何附加信息或先验知识，直接从所需处理的数据本身所提供的信息出发找出问题的内在规律。目前，大多数数据挖掘工具软件（如：AQ系统、IDS系统等）都是基于集合论开发的，其中粗糙集（RS）理论使用最广，也最布?开展前途。由于RS是研究不精确和不确定知识的一种数据工具，如，知识的含糊性，主要包括：①术语的模糊性，如高矮；②数据的不确定性，如噪声；③知识自身的不确定性，如规那么的前后件间的依赖关系不完全可靠等。所以，它同其它不确定问题理论，如，概率统计理论中的概率分布、模糊理论不能处理不完整数据且需提供隶属函数这种先验知识、D-S证据理论中的基本概率赋值等相比，更具实用性。粗集理论的主要思想：是在保持分类能力不变的前提下，通过知识约简，导出问题的决策或分类规那么。目前，RS理论已成功地应用于机器学习、过程控制、模式识别、数据挖掘、预测、故障诊断、决策分析和人工神经网络等领域，成为其它不确定理论的一种补充, 有着不可替代的优越性。 ?核可解释为在知识约简时它是不能消去的知识特征集合。【例如】设K = （U,R）是一个知识库，其中〃=区』，…，/），R = {R”,}，且U / R、={{xpx4,x5},{x2,x8),{j;3},{x6,x7}) U/R2 ={{x1,x3,x5),{x6},{x2,x4,j:7,x8})U/% ={“],% },{“ 2,与，/}，{工3，匕}} 那么得关系加4（R）的等价类为U /加d(R) = {{再,％5 }, {%2 ,“8 }，{巧}，{匕}，{%}，{%7 } } （注：u/〃h（r）是通过计算（u/与 nu/Qnu/6获得的）故由计算: u /ind(R-{Rx}) = {{x1,x5},{x2,x7,x8}Jx3},{x4},{x6})丰 U/indg(注：U/ind(R-{/?,))是通过计算U/R2C\U/R.获得的) 说明关系叫为R中必要的。对于关系R?,有U/ind(R - {7?2}) = {{Xj ,x5}, {x2,x8}, {x3}, {x4}, {x6}, {x7}} = ind(R) 故R?是R中不必要的。同理，也是R中不必要的，即有 U /ind(R - {}) = {{司,毛},{x2,x8),(x3},{x4 },{x6 },{x7)} = ind(R) 但U/R-{R2,Ry} = U/R] = {{x1,x4,x5),{x2,x8),{x3},{x6,x7}} wU/加d(R) 且有U /山d({ K, }) h U /加d(K), U1加d({^， })工 U / 〃以(R2) 所以，｛R-R?｝为独立的且为R的一个约简。同理，｛叫,R-J也是独立的且为R的一个约简。那么一个核core(R);｛叫,与｝。｛叫,｝ = ｛RJ ?.知识的相对约简、相对核概念令P和Q为U中的等价关系，Q的P正域记为R，Sp(Q),即PosP(Q) = U PX XeU/Q _所以，Q的P正域是U中所有根据分类U/P的信息可以准确地划分到关系Q的等价类中去的对象集合。令P和Q为等价关系族，RwP,如果尸%,/(p)(力以(Q)) = P%d(p.用的d(Q)) 那么称R为P中Q不必要的；否那么为必要的。为简单起见，用Rz%(Q)代替P3MP)a〃(Q))。如果P中的每个R都为Q必要的，那么称P为Q独立的(或P相对于Q独立)。设S q P ,S为P的Q约简当且仅当S是P的Q独立子族且Poss(Q) = R?Sp(Q)。 P的Q约简简称为相对约简。 P中所有Q必要的原始关系构成的集合称为P的Q的核。简称相对核，记为 coreQ(P). 定理：ceQ(P) = OedQ(P),其中/q(P)是所有P的Q约简构成的集合。【例如】设K = (U,P)是一个知识库，其中。=｛和々，…，4｝，P = ｛R1,R2，R3｝，且 UIR、={{xpx3,x4,x5,x6,x7),{x2,x8)|U i R? =｛区，七,工25｝,｛12，16，工7，工8｝｝ U/% ={{%1，工5，尢6}，{々，加工8)，{13，3} 那么由P导出的分类为U / 历d(P) = {{否,匕}，(犬3，匕)，{工2，工8 }，{工6 }，{与}} 假设等价关系Q有以下等价类: 。/(? = {口］，与，4}，*3，匕}，{工2，工7 }，■}}那么Q的P正域为