- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据仓库与数据挖掘教程(第2版)课后习题答案 第八章
第七章作业
说明等价关系、等价类以及划分的定义。
等价关系:对于?a∈A(A中包含一个或多个属性),A?R,x∈U,y∈U,他们的属性值相同,即fa(x)=fb(y)成立,称对象x和y是对属性A的等价关系。
等价类:在U中,对属性集A中具有相同等价关系的元素集合成为等价关系IND(A)的等价类。
划分:在U中对属性A的所有等价类形成的划分表示为A={Ei | Ei=[xi]a,i=1,2,… }
说明集合X的上、下近似关系定义。
下近似定义:
任一一个子集X?U,属性A的等价类Ei=[x]A ,有:A-(X)=U{Ei|Ei∈A∧Ei?X} 或A-(X)={x|[x]A?X} 表示等价类Ei=[x]A中的元素x都属于X,即?x∈A-(X),则x一定属于X。
上近似定义:
任一一个子集X?U,属性A的等价类Ei=[x]A ,有:A-(X)=U{Ei|Ei∈A∧Ei∩X≠?} 或A-(X)={x|[x]A∩X≠?} 表示等价类Ei=[x]A中的元素x可能属于X,即?x∈A-(X),则x可能属于X,也可能不属于X。
说明正域、负域和边界的定义。
全集U可以划分为三个不相交的区域,即正域(pos),负域(neg)和边界(bnd):
POSA(X)= A-(X)
NEGA(X)=U- A-(X)
BNDA(X) = A-(X)-A-(X)
4.
粗糙集定义:
若 ,即 , 即边界为空,称X为A的可定义集;
否则X为A不可定义的,
即 ,称X为A的Rough集(粗糙集)
确定度定义:
其中和分别表示集合U、()中的元素个数
5.
在信息表中根据等价关系,我们可以用等价类中的一个对象(元组)来代表整个等价类,这实际上是按纵方向约简了信息表中数据。对信息表中的数据按横方向进行约简就是看信息表中有无冗余的属性,即去除这些属性后能保持等价性,使对象分类能力不会下降。约减后的属性集称为属性约减集。
6.
属性集A的所有约简的交集称为A的核。记作
Core(A)是A中为保证信息表中对象可精确定义的必要属性组成的集合,为A中不能约简的重要属性,它是进行属性约简的基础。
7
表6.3中,定义类别第一类人和第二类人为决策属性,身高、头发、眼睛为条件属性,身高为a,头发为b,眼睛为c,类别d。
C={a,b,c},D={d}
IND(C)={{1},{2},{3},{4},{5},{6},{7},{8},{9}}
IND(D)={{1,2,3,4},{5,6,7,8,9}}
Pos C(D)=U
IND(C\{a})={{1,3},{2},{4},{5,9},{6,7},{8}}
IND(C\{b})={{1,6},{2,3,7},{4},{5},{8},{9}}
IND(C\{c})={{1,4,9},{2},{3,5},{6},{7,8}}
Pos (C\{a}) (D)=U
Pos (C\{b}) (D)={4,5,8,9}
Pos (C\{c}) (D)={2,6,7,8}
IND(C\{b,c})(D)={{1,4,6,9},{2,3,5,7,8}}
Pos ()(C\{b,c})(D)=空集
所以red D(C)={{a,b},{a,c}}
8
条件属性C和决策属性D之间的依赖度r(C,D)=|Pos C(D)| / |U|
其中|Pos C(D)|表示正域Pos C(D)的元素个数,|U|表示整个对象集合的个数。
9
依赖度r(C,D)的性质:
若r=1,意味着IND(C) IND(D),即在已知条件C下,可将U上全部个体准确分类到决策属性D的类别中去,即D完全依赖于C。
若0r1,则称D部分依赖于C,即在已知条件下,只能将U上那些属于正域的个体分类到决策属性D的类别中去。
若r=0,则称D完全不依赖于C,即利用条件C不能分类到D的类别中去。
10.属性a的重要度SGF(a、C、D)的含义是什么?
答:
属性重要度的定义:C、D包含A C为条件属性集,D为决策属性集,a属于a关于D的重要度定义为 SGF(a,C, D)=r(C,D)-r(C-{a},D)
其中r(C-{a},D)表示在C中缺少属性a后,条件属性与决策属性的依赖程度SGF(a、C、D)表示C中缺少属性a后,导致不能被准确分类的对象在系统中所占的比例。
(2)SGF(a、C、D)性质。
1,SGF(a、C、D)∈[0,1]。
2,若SGF(a、C、D)=0,表示属性a关于D是可省的,因为从属性集中去除属性a后,C-{a}中的消息,原来可以被准确分类为所有的对象仍可以能准确的划分到决策类中去。
3. SGF(a、C、D)≠0,表
原创力文档


文档评论(0)