基于随机森林文本分类模型的研究.pptVIP

  • 8
  • 0
  • 约 24页
  • 2016-02-02 发布于江苏
  • 举报
基于随机森林文本分类模型的研究.ppt

基于随机森林的文本分类模型研究 张华伟 王明文 江西师范大学计算机信息工程学院 * 提纲 研究背景 相关工作 随机森林模型 实验 进一步工作 研究背景 泛化能力:设计分类器的中心目标是能够对新样本做出正确的分类,即“泛化能力”。 目前,大多数分类器尽可能地降低同一算法在特定训练样本集上的经验风险 ----经验风险最小化 。 当前做的较好的方法: 统计学习理论:vc维-----svm 。 随机森林:误差上界 Decision Trees 基本思想:Divide-and-Conquer 基本算法(贪心算法) 自上而下分而治之的方法 开始时,所有的数据都在根节点 所有记录用所选属性递归的进行分割 属性的选择是基于一个启发式规则或者一个统计的度量 (如, information gain) 集成机器学习 集成机器学习起源于Hebb 对于神经细胞工作方式的假设:信息加工是由神经集合体共同完成的. 1990 年,Schapire 证明了一个关键定理:一个学习方法可以提升为强可学习的充要条件是其为弱可学习 由此,派生了弱分类器的概念,即,比随机猜想稍好的分类器。它告诉我们:多个弱分类器可以集成为一个强分类器。 集成机器学习 几乎所有成功的决策树集成都用了随机模型 应用随机的主要目的是离散化模型 各模型结果的集成比单个模型的预测精度要好 随机森林和其理论背景 给定K

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档