数据挖掘与应用(十二)分析.pptVIP

  • 7
  • 0
  • 约2.7千字
  • 约 16页
  • 2016-03-24 发布于湖北
  • 举报
* 第十二讲 决策树(2) * 对缺失数据的处理 决策树的建模过程会忽略因变量缺失的观测,但是决策树可以有效地处理自变量的缺失值。 在划分节点t时,如果训练数据集中自变量xr存在缺失值,那么,根据xr缺失的观测被归入哪一个子节点,S中原有的使用xr的每一个候选划分都变成H个候选划分; 最简单的做法是在划分节点时将划分变量缺失的所有观测归入同一个子节点。 还增加一些这样的候选划分:将xr缺失的观测归入一个子节点,而将其它所有观测归入另外H-1个子节点。 新的候选划分集生成后,可再从中选择最优划分。 * 对缺失数据的处理 这样处理缺失数据,相当于: 对名义变量而言将缺失值看作一个单独的类别,而对定序或连续变量而言,将缺失值看作同一个未知的数值。 但是,对xr缺失的那些观测,这种做法完全忽视了其它自变量可能含有的关于xr的信息,因而不太妥当。 * 对缺失数据的处理 另一种更为妥当的处理自变量缺失值的方法是使用替代划分规则(surrogate splitting rule)。 假设节点t的最优划分规则使用了自变量xr,我们称该划分规则为主划分规则(main splitting rule ),称xr为主划分变量。 xr值缺失的观测观测不是立即被归入接受缺失值的子节点,而是先使用第一替代规则进行划分,如果第一替代规则使用的变量也缺失,则使用第二替代规则进行划分,如

文档评论(0)

1亿VIP精品文档

相关文档