随机信息系统属性相关性及在知识约简中的应用.docVIP

随机信息系统属性相关性及在知识约简中的应用.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
随机信息系统属性相关性及在知识约简中的应用

随机信息系统属性相关性及在知识约简中的应用 摘要 引入随机信息系统的属性的信息熵,利用属性的信息熵来刻画随机信息系统的属性之间的相关性,提出一种利用属性相关性来进行随机信息系统知识约简的方法并给出基于该方法进行知识约简的算法。 1 引言 信息系统(或数据库系统)的知识发现是人工智能领域研究的主要问题之一,它是从信息系统中识别正确、新颖、有潜在应用价值并最终可为人们所理解的模式的方法。利用粗糙集模型来进行信息系统的知识发现是目前广泛研究和应用的方法,其主要思想是利用已知的知识或信息来近似不精确的概念和现象。信息系统的知识约简(属性约简)是知识发现的一个重要方面,利用Pawlak粗糙集理论对信息系统进行知识约简,已有很多学者进行了研究,得到了许多理论和应用上都比较成熟的方法n卅。但Pawlak提出的粗糙集模型处理的是经典的信息系统,而在实际中数据库系统记录的获取往往有一定的随机性,或者说在这样的信息系统中对象集上有一个概率分布。因此如何在这类数据库系统中进行知识发现,或者说在这类数据库系统中进行知识发现时又会与一般信息系统有什么不同,是一个值得探索的课题。信息熵作为一个衡量系统不确定性的指标,自其形成以来,在通讯、决策系统、统计力学、经济和人工智能等诸多领域已得到了广泛的应用。本文利用信息熵理论来讨论信息系统的知识约简。首先引进基于随机信息系统的属性的信息熵、联合熵、条件熵、交互熵等概念。利用信息熵定义属性的重要性和属性间的相关性等刻画属性特征的指标。给出利用以上概念进行随机信息系统的知识约简的一种新方法,并给出了基于这个方法进行知识约 简的—个算法。 2 随机信息系统中属性的信息熵 信息系统(或称数据库系统)是一个四元组其中是对象集合,;是属性集合,;是属性值集合,是属性的值域;是— 个信息函数,它指定中每个对象的属性值。如果属性集为,其中称为条件属性集,称为目标属性集,则称之为目标信息系统;对—个信息系统,如果上有正规概率分布,即则称之为随机信息系统,记为。 在一个随机信息系统中,对给出如下的概率分布: … … 其中是属性取值的概率。 同样可定义属性和的联合概率分布和条件概率分布如下: … … … … 其中, … … … … 其中 类似地,可定义两个属性子集的联合概率分布和条件概率分布。并且容易知道以上概率分布有以下的特点:当时,和联合概率分布与和联合概率分布相同,等于的概率分布;和的条件 概率分布与和的条件概率分布相同。如果属性子集有相同的概率分布,则它们的联合概率分布也与有相同的概率分布。 当属性值是数值时,以上可看作是随机变量的概率分布。于是,对属性,可决定一个随机变量,以下将这样的随机变量仍记作,而属性集则可决定一个维随机向量,以下也将之简记为。对。如果和有相同的分布,则称在中是非必要的,否则称在中是必要的。中所有必要属性之集称为的核,记为。如果中所有的属性都是必要的,则称为必要属性集。 定义2.1 设是—个随杌信息系统,称为的约简当且仅当为必要属性集且和有相同的分布。显然,的约简不一定是唯一的,的全体约简之交即为的核。但是,在一般的随机信息系统中,不一定是数值,从而以上的概率分布一般来说不一定是随机变量的概率分布。因此,应用概率分析的方法来进行随机信息系统的分析就显得有点困难,但由于在香农信息熵理论中用来描述其信源的符号也不一定要求是数值,这样就可以利用香农信息熵理论来对之进行讨论。 定义2.2 在—个随机信息系统中,定义属性的信息熵为: ,此处对数的底通常取为2。 定义属性的联合信息熵为: 定义属性的条件信息熵为: 定义属性的平均互信息为: 以上的定义都可以推广多个属性的情形。由信息熵的定义知以下性贡成立: 性质2.3 (1)当独立时等号成立。 (2) (3) (4) 性质2.4 设是一个随机信息系统,。如果的概率分布满足:,则 且如果上述条件的等式右边至少有两个不为0的加项,则。 证明根据信息熵的递增性有 其中,且当时,等号右边的第个加项不为0。因此,由联合信息熵的定义和以上事实得,且如果所给条件的等式右边至少有两个不为0的加项,则。 推论2.5 设是一个随机信息系统,且与的概率分布不同,则 证明 因为且与的概率分布不同,从而与的概率分布满足性质2.4的条件,所以 例2.6 考虑—个小汽车信息系统(如表1)上有

文档评论(0)

yaobanwd + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档