数据仓库与数据挖掘课件1 (9).pptVIP

  • 1
  • 0
  • 约6.5千字
  • 约 42页
  • 2020-01-13 发布于湖北
  • 举报
第7章 信息论方法 (1) 信息论原理是数据挖掘的理论基础之一。一般用于分类问题。 原理 : 找出确定类别的关键的条件属性。求关键属性的方法,就是利用信息论原理中的公式, 计算各条件属性的信息量,从中选出信息量最大的属性. 获取的分类知识表示形式为: (1)决策树,如ID3、C4.5方法,是把信息量最大的属性作为树或子树的根结点,属性的取值作为分枝。 (2)决策规则树,如IBLE方法,是把信息量大的多个属性作为树或子树的结点,多个属性的权值和与阈值比较大小来产生分枝。 7.1 信息论原理 7.2 决策树方法 7.1 信息论原理 信息论是C.E.Shannon为解决信息传递(通信)过程问题而建立的理论,也称为统计通信理论。 1. 信道模型 一个传递信息的系统是由发送端(信源)和接收端(信宿)以及连接两者的通道(信道)三者组成。 在进行了通信之后,信宿收到了信源发来的信息,这种先验不确定性才会被消除或者被减少。 如果干扰很小,不会对传递的信息产生任何可察觉的影响,信源发出的信息能够被信宿全部收到,在这种情况下,信宿的先验不确定性就会被完全消除。 如果后验不确定性的大小正好等于先验不确定性的大小,这就表示信宿根本没有收到信息。 如果后验不确定性的大小等于零,这就表示信宿收到了全部信息。 可见,信息是用来消除(随机)不确定性的度量。信息量用互信息来表示,即: I(U,V)=H(U)- H(U/V) 互信息的计算 1.定义 (1)设S为训练集,有n个特征(属性),表示为(A1,A2,...,,An)。|S|表示例子总数。 (2)S中有U1,U2两类。|Ui|表示Ui类例子数。 (3)特征Ak处有m个取值,分别为(V1,V2,...,,Vm)。 2.Ui类出现概率为: P(Ui)=|Ui|/|S| (3.1) 自然有 3.Ui类中在特征Ak处取值Vj的例子集合Vij的条件概率为: P(Vj|Ui)=|Vij|/|Ui| (3.2) 自然有 4.在特征Ak处,取Vj值的例子集合的概率为: P(Vj)=|Vj|/|S| (3.3) 自然有 6.信息熵 (1)消息传递系统由消息的发送端(信源)和接收端(信宿)以及连接两者的通道(信道)三者组成。 (2)消息(符号)Ui(i=1,2,...,q)的发生概率P(Ui)组成信源数学模型(样本空间或概率空间) (3)自信息:消息Ui发生后所含有的信息量。它反映了消息Ui发生前的不确定性(随机性)。定义为: 以2为底,所得的信息量单位为bit。以e为底,所得的信息量单位为nat. (4)信息熵:自信息的数学期望。即信源输出后,每个消息所提供的信息量,也反映了信源输出前的平均确定性。定义为: 例如:两个信源,其概率空间分别为: 则信息熵分别为: H(X)= - 0.99 log0.99 - 0.01 log0.01 = 0.08 bit H(Y)= - 0.5 log0.5 - 0.5 log0.5 = 1bit 可见 H(Y)H(X) 故信源Y比信源X的平均不确定性要大。 信息熵H(U)是信源输出前的平均不确定性,也称先验熵。 H(U)的性质: (1)H(U)=0时,说明只存在着唯一的可能性,不存在不确定性。 (2)如果n种可能的发生都有相同的概率,即所有的Ui有P(Ui)=1/n,H(U)达到最大值log n,系统的不确定性最大。 P(Ui)互相接近,H(U)就大。P(Ui)相差大,则H(U)就小。 7.互信息 (1)后验熵和条件熵 当没有接收到输出符号V时,已知输入符号U的概率分布为P(U),而当接收到输出符号V=Vj 后,输入符号的概率分布发生了变化,变成后验概率分布P(U|Vj)。其后验熵为: 那么接收到输出符号V=Vj后,关于U的平均不确定性为: 这是接收到输出符号Vj后关于U的条件熵 这个条件熵称为信道疑义度。它表示在输出端收到全部输出符号V后,对于输入端的符号集U尚存在的不确定性(存在疑义)。 从上面分析可知:条件熵小于无条件熵,即 H(U|V)H(U)。 说明接收到符号集V的所有符号后,关于输入符号U的平均不确定性减少了。即总能消除一些关于输入端X的不确定性,从而获得了一些信息。 (2)平均互信息 定义: I(U,V) = H(U) ? H(U|V) (3.10)

文档评论(0)

1亿VIP精品文档

相关文档