最新数据挖掘复习题和答案.pdfVIP

  • 12
  • 0
  • 约4.22千字
  • 约 18页
  • 2021-11-16 发布于上海
  • 举报
精品文档 一、 考虑表中二元分类问题的训练样本集 1. 整个训练样本集关于类属性的熵是多少? 2. 关于这些训练集中 a1,a2 的信息增益是多少? 3. 对于连续属性 a3,计算所有可能的划分的信息增益。 4. 根据信息增益, a1,a2,a3 哪个是最佳划分 ? 5. 根据分类错误率, a1,a2 哪具最佳? 6. 根据 gini 指标, a1,a2 哪个最佳? 答 1. P(+) = 4 / 9 and P(- ) = 5 / 9 - 4/9 log 2 (4/9) - 5/9 log 2 (5/9) = 0 .9911 . 精品文档 精品文档 答 2 : (估计不考) 精品文档 精品文档

文档评论(0)

1亿VIP精品文档

相关文档