人工智能5机器学习PPT.ppt

人工智能5机器学习PPT

5.3 常见的几种学习方法 5.3.6 基于决策树的归纳学习 Male? grade grade class1 class2 class3 class2 yes no ≥60 ≥60 60 60 5.3 常见的几种学习方法 5.3.6 基于决策树的归纳学习 如何构造一颗具有较高分类准确率的决策树? 关键:如何确定当前要以哪个属性作为测试属性? 1948 年Shannon 提出并发展了信息论,研究以数学的方法度量并研究信息。通过通信后对信源中各种符号出现的不确定程度的消除来度量信息量的大小。 (1)自信息量 设系统S中有多个可能发生的事件:a1,a2,…an, 事件ai发生的概率为p(ai), i=1,2,…,n,p(ai) ∈[0,1] p(ai)越大,事件ai不确定程度越低,反之,则越高。 5.3 常见的几种学习方法 5.3.6 基于决策树的归纳学习 用-log p(ai)表示事件ai的不确定程度,称为ai的自信息量I(ai) I(ai)=- -log p(ai) //log以2为底 (2)信息熵(entropy) 如果将S看作一个信源, a1,a2,…an看成信源S发出的n种类型的信息,则信源S的不确定性可以用平均自信息量来度量,记为H(S),定义: 5.3 常见的几种学习方法 5.3.6 基于决策树的归纳学习 2. 决策树的学习 决策树学习的过程是从空树开始,从训练集中不断选择测试属性,逐步创建决策树的过程。 设X为训练集,分为m类,第i类中的训练实例集合记为Ci ,i=1,2,,…,m,那么X中任意一个实例属于类Ci的概率估计值为: p(Ci)=|Ci|/|X| 其中|X|表示集合X中的元素个数。 训练集X关于类簇C={C1, C2, …, Cm}的分类不确定性可用西面信息熵来度量: 5.3 常见的几种学习方法 5.3.6 基于决策树的归纳学习 在C已知的情况下(训练集中已确定),H(X,C)简写为H(X)。 构造决策树的目的:将训练集X的不确定程度H(X)降至最低。从而可以对未知数据(X集以外的数据)进行分类预测。 构造决策树的过程是从空树开始不断添加节点的过程,关键是选择测试属性,使得构造起来的“半”决策树最大限度减低训练集X的信息熵H(X)。 5.3 常见的几种学习方法 5.3.6 基于决策树的归纳学习 ID color size act age inflated 1 YELLOW SMALL STRETCH ADULT T 2 YELLOW SMALL STRETCH CHILD T 3 YELLOW SMALL DIP CHILD F 4 YELLOW LARGE STRETCH ADULT T 5 YELLOW LARGE DIP ADULT T 6 YELLOW LARGE DIP CHILD F 7 PURPLE SMALL STRETCH CHILD T 8 PURPLE SMALL DIP ADULT T 9 PURPLE SMALL DIP CHILD F 10 PURPLE LARGE STRETCH CHILD T 5.3 常见的几种学习方法 5.3.6 基于决策树的归纳学习 设A={a1, a2, …, ar}为候选的测试属性,那么属性A对X形成一个划分{[a1], [a2], …, [ar]},其中[ai]表示X中在属性A上取值为ai的实例集合,i=1, 2, …, r。 现对任意i∈{1, 2, …, r},考虑类[ai]。令 则 { }形成[ai]的一个划分, 于是类[ai]关于类簇{ }的分类不确定性程度为: 5.3 常见的几种学习方法 5.3.6 基于决策树的归纳学习 其中, 表示类[ai]中任意一个实例属于 的概率, 令 称E(A)为由属性A划分成子集的信息熵。 5.3 常见的几种学习方法 5.3.6 基于决策树的归纳学习 当选择A作为测试属性时,导致训练集X的信息熵的压缩量为 H(X, C)-E(A) 该压缩量成为信息增益(information gain),记为gain(A)

文档评论(0)

1亿VIP精品文档

相关文档