- 1、本文档共38页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第7章粗集理论与概率统计方法
第七章 粗集理论与概率统计方法 粗集理论和概率统计方法在从数据中研究知识表达和决策规则推理时,都假定研究的对象可以由某些特征(属性和属性值)来特性化,如何选取有效的特征对于智能系统设计是至关重要的。但这两者的研究方法似乎完全不同,是否可以在选取关键特征的准则下达到统一?而且,前面介绍的粗集理论模型主要考虑确定性分类问题,是否可以将概率统计方法和粗集理论相结合,为确定性和不确定性知识表达系统提供一个统计粗集模型? 本章首先简要回顾一下信息理论中不确定信息的基本概念,介绍在推理学习中选取有效特征的概率统计方法,讨论粗集理论方法和概率统计方法的统一性,然后提出统计粗集模型的概念,最后将确定性粗集模型和统计粗集模型进行比较。 7.1 不确定信息的测度与推理学习的概率统计方法 假定一个可能事件集合,其事件出现的概率为p1,p2,p3,p4.......,pn,能否找到一个对结果不确定程度的测度,它应满足下列要求: (1)测度函数应该在pi上连续 (2)如果所有pi都相等即pi=1/n,则测度函数应是n的单调递增函数,当存在更多的可能事件时,对于同样的事件存在更多的选择和不确定性。 (3)如果一个选择分为两种选择,原来的测度函数应是每个测度函数值的加权和。 基于上述要求,我们采用shannon提出的熵的概念作为不确定信息的统计测度,即 例7.1 一个知识表达系统给出表格表达形式, 在表7.1中,“+”类对象出现的概率p+=3/8,-”类对象出现的概率p-=5/8,则初始熵Hi=-(3/8log3/8+5/8log5/8)=0.954. HI度量了系统在初始状态时的信息不确定性 为了对由属性和属性值特性化的对象选出合适的属性子集,我们通过最小化系统的熵值以减小信息的不确定性,为此,我们先考察各属性值对对减小信息不确定性的情况。例如,对于表7.1我们可以根据头发属性的值,把集合U划分称一些不相连的等价类,如图 根据图7.1所示的划分系统的头发的熵H头发可以表达为 H头发=p黑H黑+p红H红+p黄H黄其中 p黑=3/8,p红=1/8,p黄=4/8 划分后相应子系统的熵为 由此我们得到H头发=4/8(-1log1/2)=0.1515 这表明基于属性头发的属性值对U进行分类可以减少信息的不确定性,即 β头发=Hi-H头发=0.954-0.1515=0.8025 类似的有β眼睛=0.347,β高度=0.003 对于由特征特征化的对象的分类规则可以用决策树的形式表达,即选择最高β值的属性为树的根,树的每一分支对应根属性的一个等价类,对这些包含不同专家类的对象的分支节点要进一步分类,对每一分支,通过在属性的可用集合中选取最好的属性,进行同样的过程,已经被用在现行分支的属性不再包含在内。例如,在我们的例子中,因β头发为最大值,属性头发被选作树的根。在图7.1中,分支节点黄色包含“+”和“-”两个专家类,这就意味着需要对对象的这个子集作进一步分类,这个子系统的初始熵为1,对于其余的每一个属性,我们可以计算其熵值的减小, 7.2粗集方法与概率统计方法的比较 例7.2考虑下面一个知识表达系统 根据重量的属性值,把U分成不相连的子集如下图所示 系统的熵值为 命题1 一个知识表达系统S=(U,C,D,V,F),令T={y1,y2,..........,y10}是U上的一个划分,每一个yi代表一个概念,且 例7.3考虑一个类似与表7.2所示的知识表达系统 根据“重量”的属性值,我们把7.3中的对象分成三个不相联的子集如下图 Hi=1,H重=0,H中等=0,H轻=1 p重=2/10,p中等=2/10,p轻=6/10, 故 β重量=Hi-H重量=1-6/10=0.4 7.3 统计粗集模型 给定一个有限对象集合U和U上的等价关系R,假定U的子集上定义的概率测度p,定义概率近似空间Ap=U,R,P,U的每一子集对应代表一定有用概率的随机事件。令P(Y∣xi)表示在xi条件下Y出现的概率,根据这些条件概率,我们可以定义概率近似空间中Y的概率上近似和概率下近似分别为 由此可见,当一个对象属于posAP(Y)或negAP(Y)时,我们可以从概率的意义上肯定这个对象满足Y的程度,但我们不能肯定边界中研究对象是否匹配概率Y.因此,A-P(Y)-A-P(Y)时我们称Y在概率近似空间中是统计可定义的。否则是不可定义的。统计可定义的集合可以由AP中的基本集合完全特性化,统计不可定义的集合称为统计粗集,它可以分为下列几类 假定存在U上的子空间定义的概率测度p,U上的任意划分为随机变量,则X*=(x1,x2,......,xn)和Y*=(y1,y2,y3,.......,ym) 分别为表示U
文档评论(0)