决策树与随机森林 邹博 北京10月机器学习班 ML在线公开课第1期 2015年1月11日 目标任务与主要内容 复习信息熵 熵、联合熵、条件熵、互信息 决策树学习算法 信息增益 ID3、C4.5、CART Bagging与随机森林的思想 投票机制 分类算法的评价指标 ROC曲线和AUC值 决策树的实例(Weka自带测试数据) 复习:熵 将离散随机变量X的概率分布为P(X=xi),则定义熵为: 若P为连续随机变量,则概率分布变成概率密度函数,求和符号变成积分符号。 在不引起混淆的情况下,下面谈到的“概率分布函数”,其含义是: 1、若X为离散随机变量,则该名称为概率分布函数; 2、若X为连续随机变量,则该名称为概率密度函数。 对熵的理解 熵是随机变量不确定性的度量,不确定性越大,熵值越大;若随机变量退化成定值,熵为0 均匀分布是“最不确定”的分布 熵其实定义了一个函数(概率分布函数)到一个值(信息熵)的映射。 P(x)?H (函数?数值) 泛函 回忆一下关于“变分推导”章节中对于泛函的内容。 联合熵和条件熵 两个随机变量X,Y的联合分布,可以形成联合熵Joint Entropy,用H(X,Y)表示 H(X,Y) – H(Y) (X,Y)发生所包含的信息熵,减去Y单独发生包含的信息熵——在Y发生的前提下,X发生“新”带来的信息熵 该式子
您可能关注的文档
- 18A、B组填料填筑施工作业指导书(新).doc
- 18__小狗儿与大画家.ppt
- 18_小狗与大画家2---解老师.ppt
- 18.四上语文《颐和园》PPT课件(完美版).ppt
- 18_小狗与大画家.ppt
- 18._颐和园_课件.ppt
- 18三相异步电机的结构和基本原理.ppt
- 18.颐和园【人教版 修改好】.ppt
- 18《颐和园》第二课时_公开课.ppt
- 18、冀教版小学语文一年级下册遥远的恐龙世界.ppt
- 2026住宅小区消防改造建筑方案(执行版,含总平面布置/疏散流线/消防节点).docx
- 2026制造工厂人力资源规划与排班配置方案(执行版,含排班模型/岗位编制/缺口清单).docx
- 2026人工智能企业内训实施计划(执行版,含培训安排/案例任务/考核清单).docx
- 2026仓储物流园总平面布置建筑方案(执行版,含车流组织/仓位分区/消防间距).docx
- 2026老旧办公楼节能改造建筑方案(执行版,含围护结构/节能设备/施工节点).docx
- 2026Python文件批量重命名与归档脚本方案(执行版,含文件样例/处理脚本/归档规则).docx
- 2026企业会计准则长期股权投资核算指南(执行版,含成本法分录/权益法分录/减值检查表).docx
- 2026社区养老服务中心项目可行性研究报告(执行版,含服务需求/建设内容/运营预算).docx
- 2026物流园冷链仓储项目可行性研究报告(执行版,含选址分析/设备配置/财务测算).docx
- 2026企业会计准则现金流量表编制口径手册(执行版,含分类口径/填报模板/勾稽检查表).docx
原创力文档

文档评论(0)