- 2
- 0
- 约 21页
- 2017-02-12 发布于湖北
- 举报
基于随机森林的文本分类模型研究 张华伟 王明文 江西师范大学计算机信息工程学院 * 提纲 研究背景 相关工作 随机森林模型 实验 进一步工作 研究背景 泛化能力:设计分类器的中心目标是能够对新样本做出正确的分类,即“泛化能力”。 目前,大多数分类器尽可能地降低同一算法在特定训练样本集上的经验风险 ----经验风险最小化 。 当前做的较好的方法: 统计学习理论:vc维-----svm 。 随机森林:误差上界 Decision Trees 基本思想:Divide-and-Conquer 基本算法(贪心算法) 自上而下分而治之的方法 开始时,所有的数据都在根节点 所有记录用所选属性递归的进行分割 属性的选择是基于一个启发式规则或者一个统计的度量 (如, information gain) 集成机器学习 集成机器学习起源于Hebb 对于神经细胞工作方式的假设:信息加工是由神经集合体共同完成的. 1990 年,Schapire 证明了一个关键定理:一个学习方法可以提升为强可学习的充要条件是其为弱可学习 由此,派生了弱分类器的概念,即,比随机猜想稍好的分类器。它告诉我们:多个弱分类器可以集成为一个强分类器。 集成机器学习 几乎所有成功的决策树集成都用了随机模型 应用随机的主要目的是离散化模型 各模型结果的集成比单个模型的预测精度要好 随机森林和其理论背景 给定K
您可能关注的文档
- 基础语法时态.ppt
- 基督教香港崇真会安怡幼儿学校张美容校长欧阳菲菲主任姚.ppt
- 基金会工作培训(2013年4月12日).ppt
- 基金投资的三大策略2006年8月.ppt
- 基隆市品德教育推动成效分享与交流简报.ppt
- 基于linux下的网络型五子棋.ppt
- 基于Mantis的项目监控和管理系统案例基本介绍.ppt
- 基于MHA的mysql数据库高可用实现.ppt
- 基于OAI和METS远程收集数据的方法和流程赵阳zhaoyang@.ppt
- 基于SNMP代理的IPv6网络仿真环境.ppt
- 2025-2026学年八年级英语上册寒假单元同步复习专练Unit6(冀教版)(含解析).doc.docx
- 统编版-2025-2026学年三年级语文下册语文园地一课件.ppt.pptx
- 北师大版2025—2026学年八年级上册数学期末考试复习卷(含答案).doc.docx
- 压轴08 带电粒子在电磁组合场中的运动(答案版)--2026版高中物理全国通用终极冲刺讲练测.pdf
- 压轴05 动量定理及碰撞类动量守恒定律的应用(原卷版)--2026版高中物理全国通用终极冲刺讲练测.pdf
- 压轴07 带电粒子在匀强磁场中的运动(解析版)--2026版高中物理全国通用终极冲刺讲练测.pdf
- 压轴02 力与物体的直线运动(原卷版)--2026版高中物理全国通用终极冲刺讲练测.pdf
- 压轴04 功能关系及能量守恒定律的应用(解析版)--2026版高中物理全国通用终极冲刺讲练测.pdf
- 压轴12 几何光学(解析版)--2026版高中物理全国通用终极冲刺讲练测.pdf
- 压轴09 电磁感应中的单双棒运动问题(答案版)--2026版高中物理全国通用终极冲刺讲练测.pdf
原创力文档

文档评论(0)