数据仓库与数据挖掘课件1 (9).pptVIP

下载本文档

1
0
约6.5千字
约 42页
2020-01-13 发布于湖北
举报

数据仓库与数据挖掘课件1 (9).ppt

第7章信息论方法（1）信息论原理是数据挖掘的理论基础之一。一般用于分类问题。原理 : 找出确定类别的关键的条件属性。求关键属性的方法，就是利用信息论原理中的公式, 计算各条件属性的信息量，从中选出信息量最大的属性. 获取的分类知识表示形式为：（1）决策树，如ID3、C4.5方法，是把信息量最大的属性作为树或子树的根结点，属性的取值作为分枝。（2）决策规则树，如IBLE方法，是把信息量大的多个属性作为树或子树的结点，多个属性的权值和与阈值比较大小来产生分枝。 7.1 信息论原理 7.2 决策树方法 7.1 信息论原理信息论是C.E.Shannon为解决信息传递（通信）过程问题而建立的理论，也称为统计通信理论。 1. 信道模型一个传递信息的系统是由发送端（信源）和接收端（信宿）以及连接两者的通道（信道）三者组成。在进行了通信之后，信宿收到了信源发来的信息，这种先验不确定性才会被消除或者被减少。如果干扰很小，不会对传递的信息产生任何可察觉的影响，信源发出的信息能够被信宿全部收到，在这种情况下，信宿的先验不确定性就会被完全消除。如果后验不确定性的大小正好等于先验不确定性的大小，这就表示信宿根本没有收到信息。如果后验不确定性的大小等于零，这就表示信宿收到了全部信息。可见，信息是用来消除（随机）不确定性的度量。信息量用互信息来表示，即： I（U，V）＝H（U）－ H（U/V）互信息的计算 1．定义（1）设S为训练集，有n个特征（属性），表示为（A1，A2，...，，An）。｜S｜表示例子总数。（2）S中有U1，U2两类。｜Ui｜表示Ui类例子数。（3）特征Ak处有m个取值，分别为（V1，V2，...，，Vm）。 2．Ui类出现概率为: P（Ui）=｜Ui｜/｜S｜（3.1）自然有 3．Ui类中在特征Ak处取值Vj的例子集合Vij的条件概率为: P（Vj｜Ui）=｜Vij｜/｜Ui｜（3.2）自然有 4．在特征Ak处，取Vj值的例子集合的概率为: P（Vj）=｜Vj｜/｜S｜（3.3）自然有 6．信息熵（1）消息传递系统由消息的发送端（信源）和接收端（信宿）以及连接两者的通道（信道）三者组成。（2）消息（符号）Ui（i=1，2，...，q）的发生概率P（Ui）组成信源数学模型（样本空间或概率空间）（3）自信息:消息Ui发生后所含有的信息量。它反映了消息Ui发生前的不确定性（随机性）。定义为：以2为底，所得的信息量单位为bit。以e为底，所得的信息量单位为nat. （4）信息熵:自信息的数学期望。即信源输出后，每个消息所提供的信息量，也反映了信源输出前的平均确定性。定义为: 例如:两个信源，其概率空间分别为: 则信息熵分别为: H（X）= - 0.99 log0.99 - 0.01 log0.01 = 0.08 bit H（Y）= - 0.5 log0.5 - 0.5 log0.5 = 1bit 可见 H（Y）H（X）故信源Y比信源X的平均不确定性要大。信息熵H（U）是信源输出前的平均不确定性，也称先验熵。 H（U）的性质: （1）H（U）=0时，说明只存在着唯一的可能性，不存在不确定性。（2）如果n种可能的发生都有相同的概率，即所有的Ui有P（Ui）=1/n，H（U）达到最大值log n，系统的不确定性最大。 P（Ui）互相接近，H（U）就大。P（Ui）相差大，则H（U）就小。 7．互信息 (1)后验熵和条件熵当没有接收到输出符号V时，已知输入符号U的概率分布为P（U），而当接收到输出符号V=Vj 后，输入符号的概率分布发生了变化,变成后验概率分布P（U|Vj）。其后验熵为：那么接收到输出符号V=Vj后，关于U的平均不确定性为：这是接收到输出符号Vj后关于U的条件熵这个条件熵称为信道疑义度。它表示在输出端收到全部输出符号V后，对于输入端的符号集U尚存在的不确定性（存在疑义）。从上面分析可知：条件熵小于无条件熵，即 H（U|V）H（U）。说明接收到符号集V的所有符号后，关于输入符号U的平均不确定性减少了。即总能消除一些关于输入端X的不确定性，从而获得了一些信息。（2）平均互信息定义: I（U,V） = H（U） ? H（U|V）（3.10）

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

数据仓库与数据挖掘课件1 (9).pptVIP