数据挖掘决策树算法和.ppt

数据挖掘决策树算法和;学习数据挖掘的工具-weka;天气数据;我们希望从上面的实例中找出者若干条规则,使得能够对这些实例的类做出判断(理想情况下)(举例)

ifoutlook=sunnyand=highthenplay=no

ifhumidity=normalthenplay=yes

第二条规则错分了一个实例样本;

决策节点:

1.最上面的节点称为根节点,是整个决策树的开始。

2.每个节点子节点的个数与决策树在用的算法有关。(二叉树、多叉树)

分支:判断过程,要么是新的决策节点,要么是叶子

树叶:树的结尾,每个叶子代表一个类别;步骤:

1.决策树的生成:由训练样本数据集(根据历史数据生成、有一定综合程度的用于数据分析处理的数据集)生成

2.决策树的剪枝:采用新的样本数据集(测试数据集或者训练数据修剪集)检验决策树生成过程中产生的初步规则,将影响预测准确性的分支剪除。;ID3决策树算法描述;选择属性作为根;信息值(熵)、信息增益的概念;outlook属性的树桩;temperature、humidity、wind属性的树桩;将这些属性的信息增益的值进行比较,信息增益最大的属性节点将作为决策树的根节点。所以我们选择outlook属性作为根节点,它是唯一一个获得了全纯子节点,这就为超越其他所有属性赢得了相当大的优势。而湿度属性是第二个最佳选择,因为它产生了一个几乎

文档评论(0)

1亿VIP精品文档

相关文档