- 12
- 0
- 约1.71万字
- 约 70页
- 2023-10-09 发布于辽宁
- 举报
第十章决策树与随机森林
分类与预测分类:根据训练数据集和类标号属性,构建模型来分类现有数据,并用来分类新数据预测分类标号(或离散值)预测:建立连续函数值模型,比如预测空缺值典型应用:信誉证实(分类为低,中,高风险)医疗诊断(肿瘤是良性还是恶性)性能预测目标市场
分类的两个阶段数据分类是一个两阶段过程,包括学习阶段(构建分类模型)和分类阶段(使用模型预测给定数据的类标号)。第一步,建立一个模型,描述预定数据类集和概念集假定每个元组属于一个预定义的类,由一个类标号属性确定该阶段称为监督学习基本概念训练数据集:由为建立模型而被分析的数据元组形成训练样本:训练数据集中的单个样本(元组)学习模型可以用分类规则、判定树或数学公式的形式提供
分类的两个阶段训练数据集分类算法IF rank = ‘professor’OR years 6THEN tenured = ‘yes’ 分类规则
分类的两个阶段第二步,使用模型,对将来的或未知的对象进行分类首先评估模型的预测准确率对每个测试样本,将已知的类标号和该样本的学习模型类预测比较模型在给定测试集上的准确率是正确被模型分类的测试样本的百分比测试集:要独立于训练样本集,避免“过分拟合”的情况如果准确率可以接受,那么使用该模型来分类标签为未知的样本
分类的两个阶段分类规则测试集未知数据(Jeff, Professor, 4)Tenured?
决策树的概念
原创力文档

文档评论(0)