19.决策树与随机森林.ppt

决策树与随机森林 邹博 北京10月机器学习班 ML在线公开课第1期 2015年1月11日 目标任务与主要内容 复习信息熵 熵、联合熵、条件熵、互信息 决策树学习算法 信息增益 ID3、C4.5、CART Bagging与随机森林的思想 投票机制 分类算法的评价指标 ROC曲线和AUC值 决策树的实例(Weka自带测试数据) 复习:熵 将离散随机变量X的概率分布为P(X=xi),则定义熵为: 若P为连续随机变量,则概率分布变成概率密度函数,求和符号变成积分符号。 在不引起混淆的情况下,下面谈到的“概率分布函数”,其含义是: 1、若X为离散随机变量,则该名称为概率分布函数; 2、若X为连续随机变量,则该名称为概率密度函数。 对熵的理解 熵是随机变量不确定性的度量,不确定性越大,熵值越大;若随机变量退化成定值,熵为0 均匀分布是“最不确定”的分布 熵其实定义了一个函数(概率分布函数)到一个值(信息熵)的映射。 P(x)?H (函数?数值) 泛函 回忆一下关于“变分推导”章节中对于泛函的内容。 联合熵和条件熵 两个随机变量X,Y的联合分布,可以形成联合熵Joint Entropy,用H(X,Y)表示 H(X,Y) – H(Y) (X,Y)发生所包含的信息熵,减去Y单独发生包含的信息熵——在Y发生的前提下,X发生“新”带来的信息熵 该式子

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档